let us not love with words or tongue but actions and truth.

IT/음성인식

Connectionist Temporal Classification

sarah0518 2023. 6. 14. 19:49

Connectionist Temporal Classification: 

End-to-End의 초석이 되는 모델

 

입력에 대한 출력의 alignment가 제공됨

각각의 입력에 대하여 time-synchronous 출력이 있고 loss를 구할 수 있으므로 학습 가능

 

입력에 대한 다양한 time-synchronous alignments들은

asynchronous unaligned “compressed” sequence로 표현 가능

가능한 경로는 위와 같이 표현

 

◼하나의 most probable path만을 alignment로 사용할 경우

 - 학습 초기 alignment의 영향을 크게 받음

 -  Neural network의 초기 output에 따라 잘못된 학습을 할 수 있음

 

◼ CTC (Connectionist Temporal Classification) (Graves, 2006)

- 음성에 대하여 사전 정렬되지 않은 알파벳의 열을 학습할 수 있는 최초로 제안된 방법

- 음성인식 학습에서 주어진 정답은 알파벳의 열 뿐임

 

Transcription을 grapheme(alphabet)의 sequence로 본다면 𝐿 = { 𝑎, 𝑏, 𝑐 … , 𝑧, (𝑠𝑝𝑎𝑐𝑒)} 27개로 구성

 

 

CTC : Inference Step

‘set’이 나올 수 있는 경우의 수 (대표 2개)

𝜋1 = ‘ssss_ _ _ _eeee_ _t’

𝜋2 = ‘_ _s_ _eee_ _ _ t _ _ _’

 

 

RESOURCES FOR THE ASR

◼ LibriSpeech (Panayotov et al., 2015)

- 사용자 참여형 오디오북 프로젝트인 LibriVox project 의 결과물

- 16kHz 로 샘플링된 약 1,000 시간 분량의 녹음된 오디오북 데이터

- 현존 음성인식 연구에 있어서 가장 널리 사용되는 대규모 영어 음성 데이터 중 하나

 

시험준비!!

chapter 7

2page

3page의 self attention이 무엇인지  - 6page 과정모두

8page의 QKV 

13page - encoder쪽의 vector가 3개

(time t=3일때 계산하는 내용, x3일 때의 QKV, x2일 때의 QKV설명)

20page - positional encoding에서 

전체문장에 대해서는 independent 하고 상대문장에 대해서는 dependent한것

현재 transformer가 되기까지의 장단점 기술

p.31

2개의 positional encoding의 내적을 구한것이 전체문장에대해서는 상관없이

상대문장에대해서 상대 위치를 나타낼 수 있는것인지 설명하시오..

p.37도 중요

 

chapter8

인식 & segmentation이 중요함

p.17-18 HMM의 장점 중요, 설명할 수 있어야함

p.24 시험문제

p.34 노란색 빈칸뚫기

p.35 EM개념 알기

p.48 음소개념 - triphone 개념

p.55-56 ml방법 알기

8.3.1.1 Tree-based state clustering

auto encoder 개념알기

 

chapter 9

p.13 메모리문제 - 문제점 설명하기

p.14 학습자료 부족

good turing smoothing

p.27

p.30 back off 개념

아래 예제 그대로 시험

위의 노란색 값이 어떻게 나오는지 계산하시오

perplexity 중요

word vector 어떻게 뽑는지 알아야 됨

- CBOW

- skip gram

 

아래내용의 기본 개념 알기

- BERT (encoder쪽)

- GPT (decoder 쪽)

- ELMO (context를 반영하여 잘뽑자)

 

chapter 10

Beam pruning이 뭔지 알기

G transducer

노란색 유도과정 알기

L transducer

C transducer

node는 order of ?? 얼마인지

silence phone HMM

U transducer

p.67 빨간화살표의 아래부분을 어떻게 만들수 있는지

p.105 minimization 하는 것

 

chapter 6.

CTC의 의미 위주로 보기

B function & B- function

p.32 에서 B function B- function적용하면 어떻게 변하는지

 

p.49 

 

RESOURCES FOR THE ASR

LibriSpeech에 대한 설명

AIHUB 중요 corpus 데이터명만 알면됨

Kaldi 툴, NeMo, ESPnet, Whisper 이름 알기

'IT > 음성인식' 카테고리의 다른 글

WFST Decoder  (0) 2023.06.07
언어 모델  (0) 2023.05.17
음향모델  (0) 2023.05.03
Multi-head attention  (0) 2023.05.03
Attention의 Q, K, V와 Transformer  (0) 2023.04.12