let us not love with words or tongue but actions and truth.

IT/음성신호처리

Pitch & Vocoder

sarah0518 2023. 5. 25. 21:29

signal에서 pitch는 노란색으로 표현한 부분임

** Dudley’s slope filter 참고

 

 

Difficulties in Pitch Detection

unvoiced sound에서는 pitch를 detection하기 힘듬

 

 

Difficulties in Pitch Detection 방법

 

 

Median Smoothing to Fix Errors

 Sequence: 5, 6, 12, 7, 8 -> outlier: 12

 New sequence: 5, 6, 7, 7, 8 -> median: 7

12가 outlier로 판단되므로, median값으로 대체하는 것임

이 방법을 pitch computation에 그대로 적용한 것임

 

 

 

Vocoders: voice coding

▫ Analysis-synthesis systems of speech

(해당 내용에서는 Deep learning 방법론은 제외함)

주요 활용) source coding을 할 때 주로 사용함

 

 

• Purpose of source coding

input으로 들어오는 source를 코딩함으로써 볼륨을 줄일 수 있음

 

 

Standardized bandwidths and coding rates

아래영역의 bandwidth까지 줄이는 것이 표준임

 

Channel Vocoder Filter Banks(음성코딩방법)

** 아래의 결과로 얻을 수 있는 것 = envelope

    (envelope로 vocal tract에 대한 정보를 알 수 있음

아래부분은 pitch signal을 통해 pulse를 generate하는 과정임

 

 

• Bandwidth design할 때 주의해야할 2가지(위의 그림에서)

▫ Filters can have an increased width with center freq.

▫ Equal bandwidth: Simple filter design

 

 

 

Energy Measurements in a Channel Vocoder 2가지

1. Energy measurement with a half-wave rectifier

b) 음의영역에 대해서 제거함

c) low-pass filter를 적용함

 

2. Hilbert transform techniques

 

 

 

Bit Saving in Channel Vocoders

(전송용량 bit를 최소하 하는 방법)

1. Efficient quantization 방법 사용

▫ Logarithmic scale on sound intensities

 :log를 씌움으로써 작은값은 크게, 큰 값은 작게 표현됨

( 큰영역이라함은 amplitude가 큰 것을 뜻함)

 

2. Max’s method

음성은 보통 amplitude가 적은영역에 많이 분포되어있는 idea에  착안

위의 노란색 영역에서 더 좁은 너비를 가져감

amplitude가 적은 영역에서 더 많은 bit수를 가져감

(1번과 2번의 차이점 다시듣기)

 

3. Linear transformations of spectral data

저주파신호에서 correlation이 높다는 idea에 착안

 

3-1. Walsh-Hadamard transform

이웃한 sample들간의 차이를 활용함

3-2. PCA방법을 사용

3-3. Discrete cosine transform (DCT)

PCA가 계산( eigen value계산)이 복잡하다는 단점을 완화하기 위해 사용

 

 

 

Excitation for a Channel Vocoder

▫ Dudley channel vocoder

pulse generator, a noise generator, and a buzz-hiss switch 중

어떤 것을 사용할지 고를 수 있음

→ 현명한 방법임

 

단, pulse / noise generator를 둘다 사용해야 되는 경우가 있음

예시) Voiced fricative sounds

 

 

Cepstral Vocoders

Excitation generator: 신호의 특성에 따라 다르게 generate함

voiceless sound인 경우, random하게 생성함

 

 

Vocoder Standardization

2.4 kbps의 bit rate으로 표준화함

CELP algorithms을 사용하여 표준화함

'IT > 음성신호처리' 카테고리의 다른 글

Diphone Recording  (0) 2023.06.08
Short-Time Fourier Analysis  (0) 2023.05.04
Homomorphic Processing  (0) 2023.05.03
Psychoacoustics 심리음향  (0) 2023.04.20
Sound Waves and Wave Equation  (0) 2023.04.13