텍스트 마이닝 용어정리

IT/자연어분석

텍스트 마이닝 용어정리

sarah0518 2022. 3. 4. 11:05

728x90

텍스트 마이닝 관련 기본 용어를 정리해보려고 합니다.

간소화 시키기위해 음슴체로 진행할게요.

1. parsing : 문장을 분해 하는 것

2. tagging: 품사의 레이블을 달아주는 것

3. stopwords = common words

4. stemming: 단어의 뿌리/줄기를 찾는 법

(다양한 접미사를 제거하고 단어의 수를 감소시키기 위해 사용)

5. Term-Document Matrix: parsing, stopwords 처리, stemming 후

아래와 같은 matrix로 정리

6. 어절: 문장을 띄어쓰기 단위로 나눈 것

ex) 공부는/어렵지만/재미있었습니다.

7. 정규식: 규칙을 입력하여 규칙에 해당하는 텍스트를 매칭시켜주는 프로그래밍언어의 일종

R에서는 gsub을 사용하여 정규식을 활용한다.

ex) gsub("[1-9]", "", df): 숫자를 공백으로 대체

위의 항목외에도 아래와 같은 내용도 추가로 기억하기

[A-Za-z]: 영어
gsub("속도[[:alnum:]]*", "속도", df): 명사"속도" 뒤에 나오는 모든말을 "속도"로 변환
gsub("V[을를]*", "V", df) : "V을" or "V를" -> "V"로 변환
gsub("[[:cntrl:]]", "", df) : 제어문자(\n, \x00-\x1F 등)을 제거

8. Weighting: Term-Document Matrix결과에 가중치를 부여

ex1) 문서내의 빈도가 높은용어에 높은 가중치 부여

-> 문서를 잘 설명함

ex2) 코퍼스 내 빈도가 낮은 용어에 높은 가중치 부여

-> 코퍼스 내 문서를 더 잘 식별함

9. TF-IDF 가중치: Wij= TFij* IDFi

TF(Term Frequency) = log(1+fij)
IDF(Inverse Document Frequency) = log( Ni / fi )

여기서 f유산균 =2, N유산균 = 5 -> 따라서, IDF2 = log( 5/2)

f아이 = 5, N아이 = 5 -> 따라서 IDF1 = log( 5/5)

TF-IDF는 전체 문서들 중에서

단어 i가 적은 수의 문서에서 발생횟수가 많으면 큰 값을 가짐

이 값을 크게 가지는 단어일수록 그 단어는 높은 식별력을 가진다고 할 수 있음

[Levels of NLP]

1. morphology: 형태론

: 의미가 있는 작은 단위로 자르는 것

Part-Of-Speech(POS) tagging: 각 문장에서 품사를 tagging 해주는 것(대명사, 명사...)
Phrase Chunking: 명사구(noun phrases)와 동사구(verb phrases)를 자르는 것

** phrases: 구(의미있는 단위)

** clause: 절(주어와 동사가 같이 있는 문장 성분)

2. syntax: 구문론

3. semantics: 의미론

Word Sense Disambiguation: 동음이의어들로 인한 모호성

4. pragmatics: 화용론(Dialog Knowledge)

5. discourse: 담화론

728x90

'IT > 자연어분석' 카테고리의 다른 글

[자연어]Statistical Parsing (0)	2022.04.20
[자연어]Part of Speech Tagging, Sequence Labeling, HMM (0)	2022.04.08
[자연어]N-gram (0)	2022.03.28
[자연어] Grammar & Parsing (0)	2022.03.16
[자연어]형태소 분석 방법 (0)	2022.03.13

현재글텍스트 마이닝 용어정리

sarah0518