let us not love with words or tongue but actions and truth.

IT/자연어분석 10

[자연어]형태소 분석 방법

자연언어처리 시스템의 구성도 Part of Speech(POS) tagging란? 품사를 찾아서 tagging해주는 것 Phrase Chunking이란? 명사구(NPs)와 동사구(VPs)를 찾는 것 형용사구/부사구/전치사구 자연어 처리가 어려운 이유 불규칙한 Linguistic Rules - eg) 복수형의 불규칙 ambiguity Complex and subtle Fuzzy, probabilistic Involves reasoning about the world(경험/사회적 지식이 필요) Changing over time Learning Approach의 장점 많은 양의 데이터의 접근이 가능해짐 tagging하는 것의 난이도가 분석 규칙을 만드는 것보다 쉬움 다양한 방식의 알고리즘이 생성됨 형태소란: ..

IT/자연어분석 2022.03.13

텍스트 마이닝 용어정리

텍스트 마이닝 관련 기본 용어를 정리해보려고 합니다. 간소화 시키기위해 음슴체로 진행할게요. 1. parsing : 문장을 분해 하는 것 2. tagging: 품사의 레이블을 달아주는 것 3. stopwords = common words 4. stemming: 단어의 뿌리/줄기를 찾는 법 (다양한 접미사를 제거하고 단어의 수를 감소시키기 위해 사용) 5. Term-Document Matrix: parsing, stopwords 처리, stemming 후 아래와 같은 matrix로 정리 6. 어절: 문장을 띄어쓰기 단위로 나눈 것 ex) 공부는/어렵지만/재미있었습니다. 7. 정규식: 규칙을 입력하여 규칙에 해당하는 텍스트를 매칭시켜주는 프로그래밍언어의 일종 R에서는 gsub을 사용하여 정규식을 활용한다. ..

IT/자연어분석 2022.03.04