IT/음성인식
Multi-head attention
sarah0518
2023. 5. 3. 19:00
728x90
Multi-head attention은 음성인식에 조금 더 잘 맞을 수 있음
왜냐하면, 음성인식은 고주파/저주파에서 나오는 특성이나 분포가 다르기 때문에
고주파에서 나오는 것들끼리 attention하고,
저주파에서 나오는 것들끼리 attention을 하는 것이 더 의미있을 수 있음
Decoder: auto-regressive하게 출력결과가 나와야 하므로
Masked Multi-Head Attention을 사용함
E2E에서의 핵심 개념
- 단어를 vector화 시킨 것
ex) King - alpha = Queen
- 문장에서는 마지막 layer의 hidden vector에 context가 녹여 있음(가정)
ex) embedding space
728x90