let us not love with words or tongue but actions and truth.

IT/음성인식 11

Connectionist Temporal Classification

Connectionist Temporal Classification: End-to-End의 초석이 되는 모델 입력에 대한 출력의 alignment가 제공됨 각각의 입력에 대하여 time-synchronous 출력이 있고 loss를 구할 수 있으므로 학습 가능 입력에 대한 다양한 time-synchronous alignments들은 asynchronous unaligned “compressed” sequence로 표현 가능 가능한 경로는 위와 같이 표현 ◼하나의 most probable path만을 alignment로 사용할 경우 - 학습 초기 alignment의 영향을 크게 받음 - Neural network의 초기 output에 따라 잘못된 학습을 할 수 있음 ◼ CTC (Connectionist Te..

IT/음성인식 2023.06.14

WFST Decoder

input symbol 있는 acceptor input symbol이 없는 acceptor weight 가중치를 적용한 acceptor Weighted finite state transducer: 통역사 a: input symbol x: output symbol 1: weight Lexicon Transducer(L) silence가 없는 L-transducer silence가 있는 L-transducer Context-dependency transducer(C) 짝을 맞추기위해 epsilon을 추가함 HMM topology transducer (H) state 0은 160번째 cluster를 모델링한것이라는 뜻임 마이크에서 무슨 소리가 들어왔는지 몰라도, 가지고 있는 학습자료를 통해 미리 만들어 놓을 ..

IT/음성인식 2023.06.07

언어 모델

단어를 구분하는 단위 ⚫ 형태소(morpheme): 의미를 가지는 언어 단위 중 가장 작은 언어단위이다. 그러므로 형태소는 더 쪼개면 전 혀 의미가 없어지거나 또는 이전의 의미와 관련되는 의미가 없어지는 문법 단위 ⁻ 예) 내일 오후 세시에 학교 가자 ⁎ 내일/오후/세/시/에/학교/가/자 ⚫ 어절: 어절은 띄어쓰기로 나누어지는 언어 단위이다. ⚫ 음절(syllable): 화자와 청자가 한 뭉치로 생각하는 발화의 단위. 음소보다 크고 낱말보다 작 다. 음절은 자음과 모음 또는 단독 모음으로 구성된다. 예) 내/일/오/후/세/시/에/학/교/가/자 언어모델 단어 별로 decomposition을 한 후, history(𝑤𝑘−,1 𝑤𝑘−2, … ,𝑤0)로 부터 다음 단어(𝑤𝑘)를 예측함 단, 문장의 길이가 길어질..

IT/음성인식 2023.05.17

음향모델

8.2.1 인식 8.2.2 Segmentation 8.2.3 학습 음향 모델용 classifier가 가져야 할 특성 ⚫ 모델의 구분 단위를 정할 수 있어야 함 (예: 음소) ⚫ 모델이 주어졌을 때 인식 결과 생성이 가능해야 함 ⚫ 학습 자료가 주어졌을 때 모델 학습이 가능해야 함 ⚫ 대용량 음성코퍼스로 부터 모델 구분 단위별 학습 자료를 자동 생성할 수 있어야 함 ⚫ 모델 결합을 통한 문장 인식 확장성 → 단어에 대한 모델이 문장에 대한 모델로 확장 되는 것 4가지 HMM의 구성요소 1. N개의 상태 (State) eg) 여우silence 에서는 3개의 state 2. 상태간 천이 확률 (Transition probability) 3. 출력 확률분포 (Output probability distributi..

IT/음성인식 2023.05.03

Multi-head attention

Multi-head attention은 음성인식에 조금 더 잘 맞을 수 있음 왜냐하면, 음성인식은 고주파/저주파에서 나오는 특성이나 분포가 다르기 때문에 고주파에서 나오는 것들끼리 attention하고, 저주파에서 나오는 것들끼리 attention을 하는 것이 더 의미있을 수 있음 Decoder: auto-regressive하게 출력결과가 나와야 하므로 Masked Multi-Head Attention을 사용함 E2E에서의 핵심 개념 - 단어를 vector화 시킨 것 ex) King - alpha = Queen - 문장에서는 마지막 layer의 hidden vector에 context가 녹여 있음(가정) ex) embedding space

IT/음성인식 2023.05.03

Attention의 Q, K, V와 Transformer

Query: decoder time t=4일 때 encoder에서의 context vector를 구해주세요. (query는 decoder에서 나오는 것임) key: encoder vector에서 내적 대상이 되는 set이 key 임(encoder에 있음) value: weight하고 곱해지는 vector의 set이 value임( value도 encoder 에서 나오는 것임) Recurrent model의 단점 ◼ 정보 손실 Recurrent connection은 정보 손실을 유발 ◼ 학습 Recurrent connection은 vanishing gradients와 같은 문제로 학습이 어려움 ◼ 병렬처리 Recurrent connection은 sequential하게 처리되야 하므로 병렬 처리가 어려워 학습..

IT/음성인식 2023.04.12

Vanilla RNN & Seq2seq & attention

Vanilla RNN Vanilla RNN에서 업데이트해야되는 3개의 parameter 1. Wxh 2. Whh 3. Who Vanilla RNN의 단점 영향을 주는 정도가 과거로 갈 수록 점점 작아져 단기 메모리를 갖게 됨 해결책) attention RNN, LSTM, GRU의 한계점 길이가 다른 sequence의 변환이 불가능함 해결책 ) Seq 2 Seq 예시) 번역 Seq 2 Seq with Attention simple한 구조 표현으로 아래와 같이 나타낼 수 있음 Context vector를 사용한다는 게 주요 point임 Context vector input token을 특정차원의 벡터 space로 변환한 벡터임 ** 음성인식에서는 frame을 50으로 가져감 ** encoder와 decode..

IT/음성인식 2023.04.05