let us not love with words or tongue but actions and truth.

IT/음성신호처리

Human Auditory System

sarah0518 2023. 4. 12. 21:40

Human Auditory System

음성인식 전 음성신호를 처리하여(front-end analysis) clean 신호로 복원하기를 원함

(사람의 뇌와 귀는 위의 작업에 최적화 됨)

사람의 귀로 들어오는 신호는 아래와 같이 여러 point에서 변화됨

 - wave shapes are distorted, onsets and offsets are enhanced 등

 

 

Human Auditory System 특징

- High dynamic range: 가청주파수, db의 range가 큼

- 100 Hz 이하에서는 sensitivity가 감소함

 

 

사람의 귀

고막->망치뼈->모루뼈->등자뼈->달팽이관(=cochlea)

cochlea: 소리를 대역별로 분할함

 

** 기체에서 액체로 변할 경우, impedence가 커서 소리가 전달이 안됨

따라서 뼈를 통해 impedence를 줄여주는 역할을 함 

( = 3개의 뼈 역할)

 

 

 

달팽이관

달팽이관의 모식도를 보면 단면적이 다른 것을 알 수 있음

(= 소리를 대역별로 분할함)

 

1번영역에서는 고주파의 신호에서 진폭이 최대로 나타남

2번 영역에서는 저주파의 신호에서 진폭이 최대로 나타남

달팽이관 위치에 따른 주파수를 잘 파악하는 영역이 다름

 

 

 

Auditory Critical Band Filters

1kHZ이하에서는 100Hz 정도의 bandwidth를 가짐

즉, low frequency region에서 더 좋은 resolution을 가짐

 

 

 

Hair cell

inner hair cell보다 outer hair cell이 더 많음

hair cell을 통해 진동이 감지되고 

그게 auditory neuron을 통해 뇌로 전달됨

셀 내부에서는 전기적 신호로 진동이 전달됨

뉴런의 실제 전기신호는 spike train형태로 전달 됨

입력정보가 노란색의 dendrite(돌기)를 통해 들어오게 되고

정보가 점점 많이 들어올수록 누적이 되다가 threshold를 넘게 되면 

세포핵이 자극을 다음단계로 전달하기위해 spike를 발생시킴

(약하게 들어오는 정보는 noise일 가능성이 있으므로

robust하게 반응하기 위해 threshold를 두는 것임)

또, 처음소리부터 계속 누적시킴으로써 시간적 정보에 대해서도 얻을 수 있음

( Spike train의 rate, temporal/spatial correlation 이용)

단점) 위의 누적때문에 인간이 듣는 소리는 많이 왜곡되어 있을 수 있음

 

 

Auditory Nerve의 특성 4가지

1. Adaptation

2. Tuning

3. Synchrony

4. Nonlinearity

 

 

1. Adaptation

어떤 특정신호를 보내면 아래와 같이 받아들이게 됨

없었던 소리가 갑자기 발생하게 되면 상당히 큰 자극으로 인식이 됨(초기에 큰 spike)

그러다가 점점 적응하게 되어 spike가 감소하게 됨

The neuron is more responsive to changes than to steady inputs

 

 

 

2. Tuning

Auditory nerves act like a bank of tuned filters

각각의 hair cell들이 반응하는 주파수가 따로 있음

아래그림에서 저주파는 완만하게, 고주파는 급격하게 표현됨

 

 

 

3. Synchrony

주파수의 변화에 따라서, spike도 변화됨

주파수가 높아지면 시간간격이 짧아지는 것을 아래 그림에서 알수 있음

그러나, 너무 과도하게 짧아지면 더이상 반응하지 않음

1500HZ가 들어오면 반응하지 않는 것을 볼 수 있음

 

 

4. Nonlinearity: Saturation

spike를 통해 신호의 크기를 나타내기는 어려움 

spike는 신호의 time순서에 따라 변동될 뿐임

하지만 hair cell마다 반응을 잘하는 cell이 존재하는데 그걸 비교하면 됨

따라서, 신호의 크기를 나타내기 위해 hair cell을 비교하면

아래 그림과 같음

(1번이 반응을 잘하는 셀)

데시벨을 증가시키면 반응을 잘하는 셀도 파란색 선과같이 saturation되어

고저를 표현하지 못함(피로도 증가)

 

 

 

Nonlinearity: Two-Tone Suppression

특정 hair cell이 특정 tone에 잘 적응이 되어있다면

신호가 들어오는 순간 spike가 suppress되고 

자극이 사라지는 그시점(노란선)에 다시 spike가 되는 현상임

하나의 셀은 하나의 주파수에 튜닝이되는 현상을 보인다는 말임

 

원래 노란색에서 익숙해져있는 hair cell에

새로운 주파수(회색영역)이 입력된 경우 차이에 대해 민감해진다는 뜻이 위의그림임

 

 

 

Nonlinearity: Masking of a Tone by Noise

Tone은 일정한 sound인데 그 tone이 일정한 수준이하이면 반응이 없는 것이고,

특정 수준을 넘어야지 반응하게 됨

근데, 그때 noise가 섞여 있으면 소리가 약할 때는 섞여있다가

tone이 충분히 세지는 구간(교차점)에서는 noise도 점점크게 인식되어 실제 tone을 down시키는 것임

 

 

Nonlinearity: Combination Tones

하나의 cell(fiber)가 2개의 자극(1.0khz, 1.1khz)에 노출되어 있는 경우

combination tone은 다양한 자극에 대해서 반응함

예를 들어, 1.0khz와 1.1khz의 차이에 대해 반응하거나 

다양한 자극에 대해서 반응하게 됨

 

'IT > 음성신호처리' 카테고리의 다른 글

Psychoacoustics 심리음향  (0) 2023.04.20
Sound Waves and Wave Equation  (0) 2023.04.13
speech production  (0) 2023.04.07
wave basic  (0) 2023.04.06
LTI Systems과 여러종류의 digital filter  (0) 2023.03.30