Multi-head attention

IT/음성인식

sarah0518 2023. 5. 3. 19:00

728x90

Multi-head attention은 음성인식에 조금 더 잘 맞을 수 있음

왜냐하면, 음성인식은 고주파/저주파에서 나오는 특성이나 분포가 다르기 때문에

고주파에서 나오는 것들끼리 attention하고,

저주파에서 나오는 것들끼리 attention을 하는 것이 더 의미있을 수 있음

Decoder: auto-regressive하게 출력결과가 나와야 하므로

Masked Multi-Head Attention을 사용함

E2E에서의 핵심 개념

- 단어를 vector화 시킨 것

ex) King - alpha = Queen

- 문장에서는 마지막 layer의 hidden vector에 context가 녹여 있음(가정)

ex) embedding space

728x90