728x90
Multi-head attention은 음성인식에 조금 더 잘 맞을 수 있음
왜냐하면, 음성인식은 고주파/저주파에서 나오는 특성이나 분포가 다르기 때문에
고주파에서 나오는 것들끼리 attention하고,
저주파에서 나오는 것들끼리 attention을 하는 것이 더 의미있을 수 있음
Decoder: auto-regressive하게 출력결과가 나와야 하므로
Masked Multi-Head Attention을 사용함
E2E에서의 핵심 개념
- 단어를 vector화 시킨 것
ex) King - alpha = Queen
- 문장에서는 마지막 layer의 hidden vector에 context가 녹여 있음(가정)
ex) embedding space
728x90
'IT > 음성인식' 카테고리의 다른 글
언어 모델 (0) | 2023.05.17 |
---|---|
음향모델 (0) | 2023.05.03 |
Attention의 Q, K, V와 Transformer (0) | 2023.04.12 |
Vanilla RNN & Seq2seq & attention (0) | 2023.04.05 |
RNN (0) | 2023.03.29 |