텍스트 마이닝 관련 기본 용어를 정리해보려고 합니다. 간소화 시키기위해 음슴체로 진행할게요. 1. parsing : 문장을 분해 하는 것 2. tagging: 품사의 레이블을 달아주는 것 3. stopwords = common words 4. stemming: 단어의 뿌리/줄기를 찾는 법 (다양한 접미사를 제거하고 단어의 수를 감소시키기 위해 사용) 5. Term-Document Matrix: parsing, stopwords 처리, stemming 후 아래와 같은 matrix로 정리 6. 어절: 문장을 띄어쓰기 단위로 나눈 것 ex) 공부는/어렵지만/재미있었습니다. 7. 정규식: 규칙을 입력하여 규칙에 해당하는 텍스트를 매칭시켜주는 프로그래밍언어의 일종 R에서는 gsub을 사용하여 정규식을 활용한다. ..