[자연어]형태소 분석 방법

IT/자연어분석

[자연어]형태소 분석 방법

sarah0518 2022. 3. 13. 00:03

728x90

자연언어처리 시스템의 구성도

Part of Speech(POS) tagging란?

품사를 찾아서 tagging해주는 것

Phrase Chunking이란?

명사구(NPs)와 동사구(VPs)를 찾는 것

형용사구/부사구/전치사구

자연어 처리가 어려운 이유

불규칙한 Linguistic Rules - eg) 복수형의 불규칙
ambiguity
Complex and subtle
Fuzzy, probabilistic
Involves reasoning about the world(경험/사회적 지식이 필요)
Changing over time

Learning Approach의 장점

많은 양의 데이터의 접근이 가능해짐
tagging하는 것의 난이도가 분석 규칙을 만드는 것보다 쉬움
다양한 방식의 알고리즘이 생성됨

형태소란: 뜻을 가진 가장 작은 단위

좌우접속정보란? 좌/우측에 붙을 수 있는 것을 기준

- 좌접속범주 : 홍길동씨에서 "씨"

- 우접속범주

용언의 불규칙 활용의 예시

돕다 -> 도와서

파랗다 -> 파란

[사전검색방법 3가지]

-ISAM

-Hashing

-Trie

ISAM과 그 사용의 장/단점

- ISAM은 Index부분과 Data부분을 분리하여 저장한 사전임

- B+Tree를 이용한 Index방식

- 장점: 다른 응용 프로그램과 쉽게 공유가능

- 단점: 모든 가능성에 대하여 사전 검색을 실시

불필요한 사전 검색이 과다

TRIE(트라이)를 이용한 사전검색 특징

- 한번의 사전 검색으로 prefix를 모두 검색

- 음운축약으로 인한 철자 변화 예측가능

- 장점: 불필요한 사전검색을 억제

불규칙과 음운축약으로 인한 철자변화에 능동적 대처

- 단점: TRIE index 저장을 위한 공간낭비

사전 구조에 의존적인 사전 탐색 알고리즘 필요

[형태소 추출 방법: Tabular Parsing법]

형태소 분석기의 구성 모듈

어절 타입 검사모듈: 어절타입검사모듈: 어절분리(영어/숫자 등을 분리)

코드변환모듈:

1. 완성형코드(음절)를 자소단위의 조합형으로 변형

2. 형태소분석기 돌림

3. 다시 자소단위의 조합형을 완성형코드로 변형

(다시 최종적으로는 음절 입출력 표준코드로 변환시킴)

한글을 표현하는 코드시스템(완성형 vs. 조합형)

완성형 표준: 2byte사용

(각 byte의 첫번째 bit가 항상1, ASCII의 경우 0)

그러므로 16bit-2bit = 14bit로 표현

조합형 표준: 2byte 사용

2byte별 첫번째 bit가 항상 1

그러므로 16bit-1bit = 15bit로 표현

형태소 분석 방법

1. 어절을 형태소 단위로 분절

2. 형태소 분석 문법 검사

형태소 분석기 구현의 예:

Tabular Parsing 법 (문법검사 모듈)

모든 자료는 서정연 교수님의 자연언어처리과목 수업 내용입니다.

728x90

'IT > 자연어분석' 카테고리의 다른 글

[자연어]Statistical Parsing (0)	2022.04.20
[자연어]Part of Speech Tagging, Sequence Labeling, HMM (0)	2022.04.08
[자연어]N-gram (0)	2022.03.28
[자연어] Grammar & Parsing (0)	2022.03.16
텍스트 마이닝 용어정리 (0)	2022.03.04

현재글[자연어]형태소 분석 방법

sarah0518