Connectionist Temporal Classification:
End-to-End의 초석이 되는 모델
입력에 대한 출력의 alignment가 제공됨
각각의 입력에 대하여 time-synchronous 출력이 있고 loss를 구할 수 있으므로 학습 가능
입력에 대한 다양한 time-synchronous alignments들은
asynchronous unaligned “compressed” sequence로 표현 가능
가능한 경로는 위와 같이 표현
◼하나의 most probable path만을 alignment로 사용할 경우
- 학습 초기 alignment의 영향을 크게 받음
- Neural network의 초기 output에 따라 잘못된 학습을 할 수 있음
◼ CTC (Connectionist Temporal Classification) (Graves, 2006)
- 음성에 대하여 사전 정렬되지 않은 알파벳의 열을 학습할 수 있는 최초로 제안된 방법
- 음성인식 학습에서 주어진 정답은 알파벳의 열 뿐임
Transcription을 grapheme(alphabet)의 sequence로 본다면 𝐿 = { 𝑎, 𝑏, 𝑐 … , 𝑧, (𝑠𝑝𝑎𝑐𝑒)} 27개로 구성
CTC : Inference Step
‘set’이 나올 수 있는 경우의 수 (대표 2개)
𝜋1 = ‘ssss_ _ _ _eeee_ _t’
𝜋2 = ‘_ _s_ _eee_ _ _ t _ _ _’
RESOURCES FOR THE ASR
◼ LibriSpeech (Panayotov et al., 2015)
- 사용자 참여형 오디오북 프로젝트인 LibriVox project 의 결과물
- 16kHz 로 샘플링된 약 1,000 시간 분량의 녹음된 오디오북 데이터
- 현존 음성인식 연구에 있어서 가장 널리 사용되는 대규모 영어 음성 데이터 중 하나
시험준비!!
chapter 7
2page
3page의 self attention이 무엇인지 - 6page 과정모두
8page의 QKV
13page - encoder쪽의 vector가 3개
(time t=3일때 계산하는 내용, x3일 때의 QKV, x2일 때의 QKV설명)
20page - positional encoding에서
전체문장에 대해서는 independent 하고 상대문장에 대해서는 dependent한것
현재 transformer가 되기까지의 장단점 기술
p.31
2개의 positional encoding의 내적을 구한것이 전체문장에대해서는 상관없이
상대문장에대해서 상대 위치를 나타낼 수 있는것인지 설명하시오..
p.37도 중요
chapter8
인식 & segmentation이 중요함
p.17-18 HMM의 장점 중요, 설명할 수 있어야함
p.24 시험문제
p.34 노란색 빈칸뚫기
p.35 EM개념 알기
p.48 음소개념 - triphone 개념
p.55-56 ml방법 알기
8.3.1.1 Tree-based state clustering
auto encoder 개념알기
chapter 9
p.13 메모리문제 - 문제점 설명하기
p.14 학습자료 부족
good turing smoothing
p.27
p.30 back off 개념
아래 예제 그대로 시험
위의 노란색 값이 어떻게 나오는지 계산하시오
perplexity 중요
word vector 어떻게 뽑는지 알아야 됨
- CBOW
- skip gram
아래내용의 기본 개념 알기
- BERT (encoder쪽)
- GPT (decoder 쪽)
- ELMO (context를 반영하여 잘뽑자)
chapter 10
Beam pruning이 뭔지 알기
G transducer
노란색 유도과정 알기
L transducer
C transducer
node는 order of ?? 얼마인지
silence phone HMM
U transducer
p.67 빨간화살표의 아래부분을 어떻게 만들수 있는지
p.105 minimization 하는 것
chapter 6.
CTC의 의미 위주로 보기
B function & B- function
p.32 에서 B function B- function적용하면 어떻게 변하는지
p.49
RESOURCES FOR THE ASR
LibriSpeech에 대한 설명
AIHUB 중요 corpus 데이터명만 알면됨
Kaldi 툴, NeMo, ESPnet, Whisper 이름 알기
'IT > 음성인식' 카테고리의 다른 글
WFST Decoder (0) | 2023.06.07 |
---|---|
언어 모델 (0) | 2023.05.17 |
음향모델 (0) | 2023.05.03 |
Multi-head attention (0) | 2023.05.03 |
Attention의 Q, K, V와 Transformer (0) | 2023.04.12 |