텍스트 마이닝 관련 기본 용어를 정리해보려고 합니다.
간소화 시키기위해 음슴체로 진행할게요.
1. parsing : 문장을 분해 하는 것
2. tagging: 품사의 레이블을 달아주는 것
3. stopwords = common words
4. stemming: 단어의 뿌리/줄기를 찾는 법
(다양한 접미사를 제거하고 단어의 수를 감소시키기 위해 사용)
5. Term-Document Matrix: parsing, stopwords 처리, stemming 후
아래와 같은 matrix로 정리
6. 어절: 문장을 띄어쓰기 단위로 나눈 것
ex) 공부는/어렵지만/재미있었습니다.
7. 정규식: 규칙을 입력하여 규칙에 해당하는 텍스트를 매칭시켜주는 프로그래밍언어의 일종
R에서는 gsub을 사용하여 정규식을 활용한다.
ex) gsub("[1-9]", "", df): 숫자를 공백으로 대체
위의 항목외에도 아래와 같은 내용도 추가로 기억하기
- [A-Za-z]: 영어
- gsub("속도[[:alnum:]]*", "속도", df): 명사"속도" 뒤에 나오는 모든말을 "속도"로 변환
- gsub("V[을를]*", "V", df) : "V을" or "V를" -> "V"로 변환
- gsub("[[:cntrl:]]", "", df) : 제어문자(\n, \x00-\x1F 등)을 제거
8. Weighting: Term-Document Matrix결과에 가중치를 부여
ex1) 문서내의 빈도가 높은용어에 높은 가중치 부여
-> 문서를 잘 설명함
ex2) 코퍼스 내 빈도가 낮은 용어에 높은 가중치 부여
-> 코퍼스 내 문서를 더 잘 식별함
9. TF-IDF 가중치: Wij= TFij* IDFi
- TF(Term Frequency) = log(1+fij)
- IDF(Inverse Document Frequency) = log( Ni / fi )
여기서 f유산균 =2, N유산균 = 5 -> 따라서, IDF2 = log( 5/2)
f아이 = 5, N아이 = 5 -> 따라서 IDF1 = log( 5/5)
TF-IDF는 전체 문서들 중에서
단어 i가 적은 수의 문서에서 발생횟수가 많으면 큰 값을 가짐
이 값을 크게 가지는 단어일수록 그 단어는 높은 식별력을 가진다고 할 수 있음
[Levels of NLP]
1. morphology: 형태론
: 의미가 있는 작은 단위로 자르는 것
- Part-Of-Speech(POS) tagging: 각 문장에서 품사를 tagging 해주는 것(대명사, 명사...)
- Phrase Chunking: 명사구(noun phrases)와 동사구(verb phrases)를 자르는 것
** phrases: 구(의미있는 단위)
** clause: 절(주어와 동사가 같이 있는 문장 성분)
2. syntax: 구문론
3. semantics: 의미론
- Word Sense Disambiguation: 동음이의어들로 인한 모호성
4. pragmatics: 화용론(Dialog Knowledge)
5. discourse: 담화론
'IT > 자연어분석' 카테고리의 다른 글
[자연어]Statistical Parsing (0) | 2022.04.20 |
---|---|
[자연어]Part of Speech Tagging, Sequence Labeling, HMM (0) | 2022.04.08 |
[자연어]N-gram (0) | 2022.03.28 |
[자연어] Grammar & Parsing (0) | 2022.03.16 |
[자연어]형태소 분석 방법 (0) | 2022.03.13 |