자연언어처리 시스템의 구성도
Part of Speech(POS) tagging란?
품사를 찾아서 tagging해주는 것
Phrase Chunking이란?
명사구(NPs)와 동사구(VPs)를 찾는 것
형용사구/부사구/전치사구
자연어 처리가 어려운 이유
- 불규칙한 Linguistic Rules - eg) 복수형의 불규칙
- ambiguity
- Complex and subtle
- Fuzzy, probabilistic
- Involves reasoning about the world(경험/사회적 지식이 필요)
- Changing over time
Learning Approach의 장점
- 많은 양의 데이터의 접근이 가능해짐
- tagging하는 것의 난이도가 분석 규칙을 만드는 것보다 쉬움
- 다양한 방식의 알고리즘이 생성됨
형태소란: 뜻을 가진 가장 작은 단위
좌우접속정보란? 좌/우측에 붙을 수 있는 것을 기준
- 좌접속범주 : 홍길동씨에서 "씨"
- 우접속범주
용언의 불규칙 활용의 예시
돕다 -> 도와서
파랗다 -> 파란
[사전검색방법 3가지]
-ISAM
-Hashing
-Trie
ISAM과 그 사용의 장/단점
- ISAM은 Index부분과 Data부분을 분리하여 저장한 사전임
- B+Tree를 이용한 Index방식
- 장점: 다른 응용 프로그램과 쉽게 공유가능
- 단점: 모든 가능성에 대하여 사전 검색을 실시
불필요한 사전 검색이 과다
TRIE(트라이)를 이용한 사전검색 특징
- 한번의 사전 검색으로 prefix를 모두 검색
- 음운축약으로 인한 철자 변화 예측가능
- 장점: 불필요한 사전검색을 억제
불규칙과 음운축약으로 인한 철자변화에 능동적 대처
- 단점: TRIE index 저장을 위한 공간낭비
사전 구조에 의존적인 사전 탐색 알고리즘 필요
[형태소 추출 방법: Tabular Parsing법]
형태소 분석기의 구성 모듈
어절 타입 검사모듈: 어절타입검사모듈: 어절분리(영어/숫자 등을 분리)
코드변환모듈:
1. 완성형코드(음절)를 자소단위의 조합형으로 변형
2. 형태소분석기 돌림
3. 다시 자소단위의 조합형을 완성형코드로 변형
(다시 최종적으로는 음절 입출력 표준코드로 변환시킴)
한글을 표현하는 코드시스템(완성형 vs. 조합형)
완성형 표준: 2byte사용
(각 byte의 첫번째 bit가 항상1, ASCII의 경우 0)
그러므로 16bit-2bit = 14bit로 표현
조합형 표준: 2byte 사용
2byte별 첫번째 bit가 항상 1
그러므로 16bit-1bit = 15bit로 표현
형태소 분석 방법
1. 어절을 형태소 단위로 분절
2. 형태소 분석 문법 검사
형태소 분석기 구현의 예:
Tabular Parsing 법 (문법검사 모듈)
모든 자료는 서정연 교수님의 자연언어처리과목 수업 내용입니다.
'IT > 자연어분석' 카테고리의 다른 글
[자연어]Statistical Parsing (0) | 2022.04.20 |
---|---|
[자연어]Part of Speech Tagging, Sequence Labeling, HMM (0) | 2022.04.08 |
[자연어]N-gram (0) | 2022.03.28 |
[자연어] Grammar & Parsing (0) | 2022.03.16 |
텍스트 마이닝 용어정리 (0) | 2022.03.04 |