let us not love with words or tongue but actions and truth.

IT/자연어분석

텍스트 마이닝 용어정리

sarah0518 2022. 3. 4. 11:05
728x90

텍스트 마이닝 관련 기본 용어를 정리해보려고 합니다.

간소화 시키기위해 음슴체로 진행할게요.

 

 

1. parsing : 문장을 분해 하는 것

 

2. tagging: 품사의 레이블을 달아주는 것

 

3. stopwords = common words

 

4. stemming: 단어의 뿌리/줄기를 찾는 법

   (다양한 접미사를 제거하고 단어의 수를 감소시키기 위해 사용)

 

5. Term-Document Matrix: parsing, stopwords 처리, stemming 후

                                              아래와 같은 matrix로 정리

  

 

6. 어절: 문장을 띄어쓰기 단위로 나눈 것

   ex) 공부는/어렵지만/재미있었습니다.

 

 

7. 정규식: 규칙을 입력하여 규칙에 해당하는 텍스트를 매칭시켜주는 프로그래밍언어의 일종

R에서는 gsub을 사용하여 정규식을 활용한다.

ex) gsub("[1-9]", "", df): 숫자를 공백으로 대체

 

위의 항목외에도 아래와 같은 내용도 추가로 기억하기

  • [A-Za-z]: 영어
  • gsub("속도[[:alnum:]]*", "속도", df): 명사"속도" 뒤에 나오는 모든말을 "속도"로 변환
  • gsub("V[을를]*", "V", df) : "V을" or "V를" -> "V"로 변환
  • gsub("[[:cntrl:]]", "", df) : 제어문자(\n, \x00-\x1F 등)을 제거

 

 

8. Weighting: Term-Document Matrix결과에 가중치를 부여

   ex1) 문서내의 빈도가 높은용어에 높은 가중치 부여

        -> 문서를 잘 설명함

   ex2) 코퍼스 내 빈도가 낮은 용어에 높은 가중치 부여

        -> 코퍼스 내 문서를 더 잘 식별함 

 

 

9. TF-IDF 가중치: Wij= TFij* IDFi

  • TF(Term Frequency) = log(1+fij)
  • IDF(Inverse Document Frequency) = log( Ni / fi )

 

여기서 f유산균 =2, N유산균 = 5  -> 따라서, IDF2 = log( 5/2)

f아이 = 5, N아이 = 5 -> 따라서 IDF1 = log( 5/5)

 

TF-IDF는 전체 문서들 중에서

단어 i가 적은 수의 문서에서 발생횟수가 많으면 큰 값을 가짐

이 값을 크게 가지는 단어일수록 그 단어는 높은 식별력을 가진다고 할 수 있음

 

 

 

[Levels of NLP]

 

1. morphology: 형태론

: 의미가 있는 작은 단위로 자르는 것

  • Part-Of-Speech(POS) tagging: 각 문장에서 품사를 tagging 해주는 것(대명사, 명사...)
  • Phrase Chunking: 명사구(noun phrases)와 동사구(verb phrases)를 자르는 것

** phrases: 구(의미있는 단위)

** clause: 절(주어와 동사가 같이 있는 문장 성분) 

 

2. syntax: 구문론

3. semantics: 의미론

  • Word Sense Disambiguation: 동음이의어들로 인한 모호성

4. pragmatics: 화용론(Dialog Knowledge)

5. discourse: 담화론

 

 

 

 

728x90

'IT > 자연어분석' 카테고리의 다른 글

[자연어]Statistical Parsing  (0) 2022.04.20
[자연어]Part of Speech Tagging, Sequence Labeling, HMM  (0) 2022.04.08
[자연어]N-gram  (0) 2022.03.28
[자연어] Grammar & Parsing  (0) 2022.03.16
[자연어]형태소 분석 방법  (0) 2022.03.13