Connectionist Temporal Classification

IT/음성인식

Connectionist Temporal Classification

sarah0518 2023. 6. 14. 19:49

728x90

Connectionist Temporal Classification:

End-to-End의 초석이 되는 모델

입력에 대한 출력의 alignment가 제공됨

각각의 입력에 대하여 time-synchronous 출력이 있고 loss를 구할 수 있으므로 학습 가능

입력에 대한 다양한 time-synchronous alignments들은

asynchronous unaligned “compressed” sequence로 표현 가능

가능한 경로는 위와 같이 표현

◼하나의 most probable path만을 alignment로 사용할 경우

- 학습 초기 alignment의 영향을 크게 받음

- Neural network의 초기 output에 따라 잘못된 학습을 할 수 있음

◼ CTC (Connectionist Temporal Classification) (Graves, 2006)

- 음성에 대하여 사전 정렬되지 않은 알파벳의 열을 학습할 수 있는 최초로 제안된 방법

- 음성인식 학습에서 주어진 정답은 알파벳의 열 뿐임

Transcription을 grapheme(alphabet)의 sequence로 본다면 𝐿 = { 𝑎, 𝑏, 𝑐 … , 𝑧, (𝑠𝑝𝑎𝑐𝑒)} 27개로 구성

CTC : Inference Step

‘set’이 나올 수 있는 경우의 수 (대표 2개)

𝜋1 = ‘ssss_ _ _ _eeee_ _t’

𝜋2 = ‘_ _s_ _eee_ _ _ t _ _ _’

RESOURCES FOR THE ASR

◼ LibriSpeech (Panayotov et al., 2015)

- 사용자 참여형 오디오북 프로젝트인 LibriVox project 의 결과물

- 16kHz 로 샘플링된 약 1,000 시간 분량의 녹음된 오디오북 데이터

- 현존 음성인식 연구에 있어서 가장 널리 사용되는 대규모 영어 음성 데이터 중 하나

시험준비!!

chapter 7

2page

3page의 self attention이 무엇인지 - 6page 과정모두

8page의 QKV

13page - encoder쪽의 vector가 3개

(time t=3일때 계산하는 내용, x3일 때의 QKV, x2일 때의 QKV설명)

20page - positional encoding에서

전체문장에 대해서는 independent 하고 상대문장에 대해서는 dependent한것

현재 transformer가 되기까지의 장단점 기술

p.31

2개의 positional encoding의 내적을 구한것이 전체문장에대해서는 상관없이

상대문장에대해서 상대 위치를 나타낼 수 있는것인지 설명하시오..

p.37도 중요

chapter8

인식 & segmentation이 중요함

p.17-18 HMM의 장점 중요, 설명할 수 있어야함

p.24 시험문제

p.34 노란색 빈칸뚫기

p.35 EM개념 알기

p.48 음소개념 - triphone 개념

p.55-56 ml방법 알기

8.3.1.1 Tree-based state clustering

auto encoder 개념알기

chapter 9

p.13 메모리문제 - 문제점 설명하기

p.14 학습자료 부족

good turing smoothing

p.27

p.30 back off 개념

아래 예제 그대로 시험

위의 노란색 값이 어떻게 나오는지 계산하시오

perplexity 중요

word vector 어떻게 뽑는지 알아야 됨

- CBOW

- skip gram

아래내용의 기본 개념 알기

- BERT (encoder쪽)

- GPT (decoder 쪽)

- ELMO (context를 반영하여 잘뽑자)

chapter 10

Beam pruning이 뭔지 알기

G transducer

노란색 유도과정 알기

L transducer

C transducer

node는 order of ?? 얼마인지

silence phone HMM

U transducer

p.67 빨간화살표의 아래부분을 어떻게 만들수 있는지

p.105 minimization 하는 것

chapter 6.

CTC의 의미 위주로 보기

B function & B- function

p.32 에서 B function B- function적용하면 어떻게 변하는지

p.49

RESOURCES FOR THE ASR

LibriSpeech에 대한 설명

AIHUB 중요 corpus 데이터명만 알면됨

Kaldi 툴, NeMo, ESPnet, Whisper 이름 알기

728x90

저작자표시 변경금지

'IT > 음성인식' 카테고리의 다른 글

WFST Decoder (0)	2023.06.07
언어 모델 (0)	2023.05.17
음향모델 (0)	2023.05.03
Multi-head attention (0)	2023.05.03
Attention의 Q, K, V와 Transformer (0)	2023.04.12

현재글Connectionist Temporal Classification

sarah0518 sarah0518 님의 블로그입니다.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

sarah0518