음성신호처리 개론

2023. 3. 9. 22:40

음성 신호 기본 개념

  • vocal cord: 성대
  • amplitude: 진폭
  • frequency: 주파수
  • resonant: 공진주파수
  • Fourier 변환: 신호에서 sin주기를 나타내는 신호가 몇개가 있는지 분해해 내는 것
  • 시간축에서 주기가 P일 때, 주파수 도메인에서는 주기가 1/p임


source를 입력받아 filter를 거쳐 speech sequence 형태로 바꾸는 것


filter는 time varying 특성이 있는데, 가나다를 발음 할 때마다 volcal tract과 혀의 위치가 바뀌기 때문임 (즉, filter = vocal tract)

Analysis-synthesis system이란?

▫ Analyze the speech production mechanism. 

▫ Separate the source and the filter. 

▫ Parameterize the source and the filter. 

▫ Transmit the parameters.

▫ Synthesize the signal by using the parameters (파라미터를 다시 signal로 합성하는 것)

3가지 형태의 source

  1. noisy(unvoiced) : 마찰음 (무질서한 sound)
  2. periodic(voiced) 
  3. impulsive: 파열음 


Glottal cycle의 3가지 단계

Closed → Open → Return

** return phase의 특징: 매우 빠르게 일어남



Pitch period: periodic source의 주기 (one cycle)

Pitch period의 역수를 pitch 또는 fundamental frequency 라고 함 (기호 F0)

Pitch range: 60~400 Hz 

Lossless Tube Model

vocal tract을 아래와 같이 simple하게 표현함

•  Assume the vocal tract as a lossless nonuniform tube

( non-uniform tube로세로의 높이가 상이함) 

• The nonuniform tube can be approximated as concatenation of N uniform tubes.

(가로의 너비는 동일함)

 • Apply the wave equation and derive a transfer function(filter라고 생각하면 됨) from the glottis to the lips

Speech sounds의 예시

Speech production 매커니즘

source는 성대의 filter와 vocal tract의 linear filter를 거쳐 음성이 만들어 짐

Short-time Fourier transform

short-time fourier transform이 필요한 이유

이론적으로 Fourier transform는 음의 무한대에서 양의 무한대의 입력을 변환하는 것인데,

사람의 음성은 시간에 따라 바뀌므로, 각 발화시점마다의 주파수 특성을 구분하는 것이 필요함 

  • 20-30ms단위로 자름

    → 근육이 순간적으로 바뀌지 않음 “가”는 “ㄱ”+”ㅏ”로 발음이 됨 (20~30ms단위로)

  • window를 sliding하면서 이동시킴
  • 주로 Hamming window를 사용함

   → Hamming window gives good trade-off between mainlobe width and sidelobe attenuation.

가나다를 발음할때의 signal (위: waveform, 아래: spectrogram)



Pitch period (1/F0 = 주기)

F0 =  Pitch  = Fundamental frequency

** Pitch period는 사람의 개개인의 특성에 주로 좌우 됨 (발음보다는)






Vowels의 spectrum 비교

(a)와 (b)는 같은 발음을 다른사람이 한 것이고 (다른 pitch)

(b)와 (c)는 다른 발음을 같은 사람이 한 것임 (같은 pitch)


Cepstral analysis

주파수 도메인에서 음성을 분석한다는 것은 성도(vocal tract)에 해당하는 필터

+ 성대에 해당하는 필터가 있고 각각의 parameter를 분리해서 찾는 것임

a를 b로 퓨리에 변환한다음 

b에 로그를 씌우면 log(ab) → log(a) + log(b)로 변환됨 이게 c가 되는 과정임

low(성도)는 어떤 발음을 했냐를 볼때 사용할 수 있고,

High(성대)는 누가 발음을 했냐(speaker recognition)을 분석할 때 사용하는 영역임




Wideband Spectrogram vs. Narrow-Band Spectrogram 

20~30ms 기준으로 볼 때,

Wideband Spectrogram로 하면 세로방향으로는 차이가 없으나, x축으로는 차이가 남

시간에 따라 상세히 보고, 주파수에 따라 smoothing하게 보는 것임


Narrow-Band Spectrogram 

Narrow-Band Spectrogram 로 하면 가로방향으로는 차이가 없으나, 세로축으로는 차이가 남

시간에 따라 smoothing 하게 보고 주파수에 따라 상세히 보는 것임




