let us not love with words or tongue but actions and truth.

IT/자연어분석

[자연어]형태소 분석 방법

sarah0518 2022. 3. 13. 00:03
728x90

자연언어처리 시스템의 구성도

의미가있는 최소의 단위: 형태소

 

Part of Speech(POS) tagging란?

품사를 찾아서 tagging해주는 것

 

 

Phrase Chunking이란?

명사구(NPs)와 동사구(VPs)를 찾는 것

형용사구/부사구/전치사구

 

 

자연어 처리가 어려운 이유

  • 불규칙한 Linguistic Rules - eg) 복수형의 불규칙
  • ambiguity
  • Complex and subtle
  • Fuzzy, probabilistic
  • Involves reasoning about the world(경험/사회적 지식이 필요)
  • Changing over time

 

Learning Approach의 장점

  • 많은 양의 데이터의 접근이 가능해짐
  • tagging하는 것의 난이도가 분석 규칙을 만드는 것보다 쉬움
  • 다양한 방식의 알고리즘이 생성됨

 

 

형태소란: 뜻을 가진 가장 작은 단위 

 

 

좌우접속정보란? 좌/우측에 붙을 수 있는 것을 기준

 - 좌접속범주 : 홍길동씨에서 "씨"

 - 우접속범주

 

용언의 불규칙 활용의 예시

돕다 -> 도와서

파랗다 -> 파란

 

 

[사전검색방법 3가지]

-ISAM

-Hashing

-Trie

 

 

ISAM과 그 사용의 장/단점

 - ISAM은 Index부분과 Data부분을 분리하여 저장한 사전임

 - B+Tree를 이용한 Index방식

 - 장점: 다른 응용 프로그램과 쉽게 공유가능

 - 단점: 모든 가능성에 대하여 사전 검색을 실시

           불필요한 사전 검색이 과다

 

 

TRIE(트라이)를 이용한 사전검색 특징

- 한번의 사전 검색으로 prefix를 모두 검색

- 음운축약으로 인한 철자 변화 예측가능

- 장점: 불필요한 사전검색을 억제

         불규칙과 음운축약으로 인한 철자변화에 능동적 대처

- 단점: TRIE index 저장을 위한 공간낭비

         사전 구조에 의존적인 사전 탐색 알고리즘 필요

 

[형태소 추출 방법: Tabular Parsing법]

 

형태소 분석기의 구성 모듈

순서: 불규칙처리 & 음운현상 처리모듈 -> 사전검색 -> 문법검사

 

어절 타입 검사모듈: 어절타입검사모듈: 어절분리(영어/숫자 등을 분리)

코드변환모듈:

1. 완성형코드(음절)를 자소단위의 조합형으로 변형

2. 형태소분석기 돌림

3. 다시 자소단위의 조합형을 완성형코드로 변형

(다시 최종적으로는 음절 입출력 표준코드로 변환시킴)

 

 

한글을 표현하는 코드시스템(완성형 vs. 조합형)

완성형 표준: 2byte사용

(각 byte의 첫번째  bit가 항상1, ASCII의 경우 0)

그러므로 16bit-2bit = 14bit로 표현

조합형 표준: 2byte 사용

2byte별 첫번째 bit가 항상 1

그러므로 16bit-1bit = 15bit로 표현

 

 

형태소 분석 방법

1. 어절을 형태소 단위로 분절

2. 형태소 분석 문법 검사

 

 

형태소 분석기 구현의 예:

Tabular Parsing 법 (문법검사 모듈)

 

 

모든 자료는 서정연 교수님의 자연언어처리과목 수업 내용입니다.

728x90

'IT > 자연어분석' 카테고리의 다른 글

[자연어]Statistical Parsing  (0) 2022.04.20
[자연어]Part of Speech Tagging, Sequence Labeling, HMM  (0) 2022.04.08
[자연어]N-gram  (0) 2022.03.28
[자연어] Grammar & Parsing  (0) 2022.03.16
텍스트 마이닝 용어정리  (0) 2022.03.04