let us not love with words or tongue but actions and truth.

IT/자연어분석 10

BERT2

introduction: word representaiton Local representation vs. Distributed representation Local: one-hot encoding Distributed: continuous한 요소들의 벡터로 표현 (vectors in a continuous vector space) downstream task란? 아래그림에서 taget task를 뜻함 fine-tuning approach에서 각 task별 사용하는 방법들 예를들어 NLI(문장관계분석)을 하려면 2문장 가운데, 구분자를 넣어줌 (전체 문장 corpus에 구분자를 넣어준다는 뜻) BERT(Bidirectional Encoder Representations from Transformers) 양..

IT/자연어분석 2022.05.26

BERT1

Pre-trained Language Representations 2가지 1. Feature-based approach 2. Fine-tuning approach 1. Feature-based approach 특정 분석을 수행하기위해 architecture에서 input을 기존의 word vector(파란색)뿐만 아니라, ELMo통해 추가로 얻은 feature를 더해줘서 넣어주는 것 2. Fine-tuning approach 대규모로 language modeling을 진행후, 약간의 튜닝을 통해 원하는 분석작업에 적용하는 것 → BERT, GPT3가 있음 ELMo ELMo는 word2vec에서 불가능했던 동음이의어를 처리하기 위해 문장전체(양방향)를 가져와서 단어를 처리하자는 것임 eg) I need a..

IT/자연어분석 2022.05.26

LSTM and Sequential Labeling

General Problems Solved with LSTM - Sequence labeling POS tagging, NER - Language modeling : 다음에 들어올 단어 예측 - Sequence classification : text가 들어왔을 때, spam메일인지 아닌지 분류하는 것 ** NER은 조화평균으로 성능을 평가함 Sequence to Sequence transduction encoder / decoder framework - 기계번역등에 활용 BERT는 encoder로, GPT3와 같은것은 decoder로 만든 것임 LSTM의 활용 사례 RNN의 단점: vanishing gradient problem LSTM의 단점: 계산량이 많음 → GRU(Gated Recurren Uni..

IT/자연어분석 2022.05.25

Word Vector and Word embedding

NLP에서의 pre-training pre-training의 결과를 가지고 주로 NLP분석을 수행함 (pre-training의 결과물: word embedding) Auto Encoder 계열과 Restricted Boltzmann Machine 계열이 있음 ** RBM과 auto encoder의 차이와 설명은 아래 내용을 참고해 주세요. https://sarah0518.tistory.com/111 RBM과 DBN 지난번 적층 인코더와 유사한 느낌의 DBN과 그것의 기본 구조가 되는 RBM을 설명하고자 해요. 이 내용은 통계역학(통계 물리의 세부분야)에서 연구된 내용으로 Hinton(19830)이 볼츠만 머신(Boltzmann mac sarah0518.tistory.com NLP에서 단어를 표현하는 방법..

IT/자연어분석 2022.05.06

[자연어]Statistical Parsing

[Chunking] Chunking: 의미있는 chunk(NP, VP등)를 찾아내는 것 Phrase Chunking as Sequence Labeling Tag individual words with one of 3 tags. - B (Begin) word starts new target phrase - I (Inside) word is part of target phrase but not the first word - O (Other) word is not part of target phrase --> 위의 tagging 방법을 통해서 문장의 단어의 classification문제로 바꿈 Evaluating Chunking recall과 precision은 반비례 관계에 있음 따라서, F1를 사용 = 2..

IT/자연어분석 2022.04.20

[자연어]Part of Speech Tagging, Sequence Labeling, HMM

Part of speech Part of speech tagging(PoS): 각 문장에 품사를 붙여 주는 것 한국어 PoS tag: 46개 영어 PoS tag: - Noun - Verb - Adjective(형용사) - Adverb(부사) - Preposition - Determiner: 관사, WH-determiner(which, that) - Coordinating Conjunction: and, but, or - Particle: 연결부사(take off에서 off와 같은 것들) Closed class categories: Pronouns, prepositions, modals, determiners, particles, conjunctions Open class categories: 명사, 동사..

IT/자연어분석 2022.04.08

[자연어]N-gram

Rule-based approach 문제점 1. Hard to scale-up 2. Brittle(깨지기 쉬움) 3. Ambiguity Tagged Corpus 종류 Ø 품사(Part-of-Speech)가 tag된 corpus Ø Tree tagged corpus ( Penn Treebank) Ø Semantic code(feature) tagged corpus Ø Discourse structure tagged corpus Ø Parallel corpus for MT ( 한-영의 parallel corpus를 뜻함) N-gram 사용 영역 Ø Speech recognition - 음성인식 Ø OCR & Handwriting recognition Ø Machine translation - 기계번역 Ø G..

IT/자연어분석 2022.03.28

[자연어] Grammar & Parsing

Syntactic parser: 문법을 이용하여 문장의 구조를 찾아내는 process (parse tree참고) Tree관련 용어정리 Node : Non-terminal node eg. 명사구, 동사구, 형용사구, 부사구, 전치사구 Link Root: S = sentence Leaves Grammar: a set of rewite rules(CFG참고) Context Free Grammar (CFG): 1. N: a set of non-terminal symbols (S, NP, VP 등) 2. ∑: a set of terminal symbols (N, V 등) 3. R: 아래와 같은 parsing 규칙룰을 표현 단, 왼쪽에 있는 항들은 모두 한개의 non-terminal이어야 함. 4. S: start..

IT/자연어분석 2022.03.16