음성인식의 특징
음성(continuous)인식에서 각 문자열을 index의 열로 변환하는 경우 discrete한 열로 변환하는 작업임
→ 대소비교가 불가능하다는 특징이 있음
언어 번역시 입력과 출력의 length는 다름
→ 하지만 어느정도의 길이는 비슷하게 된다는 특징이 있음
음성에서는 입력 sequence에서 출력 sequence로 변형되는 경우 출력 sequence가 훨씬 짧다는 특징이 있음
→ 출력 sequence는 20ms로 출력하기 때문임
음성인식률, 메모리 사용량, 반응속도와의 trade off관계가 있음
음성인식의 특징 결론
1. continuous한 입력 sequence(vector)를 discrete(단어 index의 열)한 것으로 변경하는 것임
→ 입력 sequence에서 출력 sequence로 변형 되는 것은 같지만 위와 같은 detail의 차이가 있음
2. 입력 sequence의 길이보다 출력 sequence의 길이가 짧음
3. 시계열 패턴이다
4.음성인식률, 메모리 사용량, 반응속도와의 trade off관계가 있음
5. 소리가 전달 되는 속도의 제약이 있음
음성인식의 입력 개수
출력개수
1. 노이즈를 분리하여 음성만 추출하기가 어려움
2. 무한대의 sequence임
음성인식은 classification문제임
- 사전확률:
- 이벤트가 발생하기 전 확률
- 마이크에 무슨소리가 들어오든 상관없이 들어오는 상태
- P(O|W)P(W)
- DNN-WFST
- 기존에 corpus가 많이 존재하지 않을 때, text로 된 corpus(X)를 활용하여 음성인식을 하는 것
- 사후확률:
- 이벤트가 발생한 다음 확률
- P(W|O)
- corpus가 많이 쌓인 이후에 “W”를 classification하는 것임
- end to end = transformer
참고)
argmaxP(W|O)는 end to end model이라 구하기 어려움
따라서 디코딩+음향모델+언어모델과 같이 구현이 더 쉬운 DNN-WFST(과거버전)로 문제를 푸는 것임
참고사항
SNR: Signal Noise Ratio: 신호와 소음의 에너지 비율 (로그 취한값)
시그널과 소음이 비슷하다면 1→ log(1) = 0 SNR 0db이라고 표현함
** 사무실 환경은 12db정도
** 스튜디오는 20db정도임
** GPT: 앞에 문장 작성해놓고 그 뒤에는 알아서 작성해
** Bert: 문장 빈칸 뚫어 놓고 채우기
** Librispeech: 1000시간짜리의 음성(동화같은 책) - 조용한 환경에서 녹음 함
→ 보통 reference 데이터로 많이 사용함
'IT > 음성인식' 카테고리의 다른 글
Attention의 Q, K, V와 Transformer (0) | 2023.04.12 |
---|---|
Vanilla RNN & Seq2seq & attention (0) | 2023.04.05 |
RNN (0) | 2023.03.29 |
Feed Forward Neural Net (0) | 2023.03.22 |
입/출력 end 복잡도 분석 (0) | 2023.03.15 |