Human Auditory System
음성인식 전 음성신호를 처리하여(front-end analysis) clean 신호로 복원하기를 원함
(사람의 뇌와 귀는 위의 작업에 최적화 됨)
사람의 귀로 들어오는 신호는 아래와 같이 여러 point에서 변화됨
- wave shapes are distorted, onsets and offsets are enhanced 등
Human Auditory System 특징
- High dynamic range: 가청주파수, db의 range가 큼
- 100 Hz 이하에서는 sensitivity가 감소함
사람의 귀
cochlea: 소리를 대역별로 분할함
** 기체에서 액체로 변할 경우, impedence가 커서 소리가 전달이 안됨
따라서 뼈를 통해 impedence를 줄여주는 역할을 함
( = 3개의 뼈 역할)
달팽이관
달팽이관의 모식도를 보면 단면적이 다른 것을 알 수 있음
(= 소리를 대역별로 분할함)
1번영역에서는 고주파의 신호에서 진폭이 최대로 나타남
2번 영역에서는 저주파의 신호에서 진폭이 최대로 나타남
달팽이관 위치에 따른 주파수를 잘 파악하는 영역이 다름
Auditory Critical Band Filters
1kHZ이하에서는 100Hz 정도의 bandwidth를 가짐
즉, low frequency region에서 더 좋은 resolution을 가짐
Hair cell
inner hair cell보다 outer hair cell이 더 많음
hair cell을 통해 진동이 감지되고
그게 auditory neuron을 통해 뇌로 전달됨
셀 내부에서는 전기적 신호로 진동이 전달됨
뉴런의 실제 전기신호는 spike train형태로 전달 됨
입력정보가 노란색의 dendrite(돌기)를 통해 들어오게 되고
정보가 점점 많이 들어올수록 누적이 되다가 threshold를 넘게 되면
세포핵이 자극을 다음단계로 전달하기위해 spike를 발생시킴
(약하게 들어오는 정보는 noise일 가능성이 있으므로
robust하게 반응하기 위해 threshold를 두는 것임)
또, 처음소리부터 계속 누적시킴으로써 시간적 정보에 대해서도 얻을 수 있음
( Spike train의 rate, temporal/spatial correlation 이용)
단점) 위의 누적때문에 인간이 듣는 소리는 많이 왜곡되어 있을 수 있음
Auditory Nerve의 특성 4가지
1. Adaptation
2. Tuning
3. Synchrony
4. Nonlinearity
1. Adaptation
어떤 특정신호를 보내면 아래와 같이 받아들이게 됨
없었던 소리가 갑자기 발생하게 되면 상당히 큰 자극으로 인식이 됨(초기에 큰 spike)
그러다가 점점 적응하게 되어 spike가 감소하게 됨
The neuron is more responsive to changes than to steady inputs
2. Tuning
Auditory nerves act like a bank of tuned filters
→ 각각의 hair cell들이 반응하는 주파수가 따로 있음
아래그림에서 저주파는 완만하게, 고주파는 급격하게 표현됨
3. Synchrony
주파수의 변화에 따라서, spike도 변화됨
주파수가 높아지면 시간간격이 짧아지는 것을 아래 그림에서 알수 있음
그러나, 너무 과도하게 짧아지면 더이상 반응하지 않음
1500HZ가 들어오면 반응하지 않는 것을 볼 수 있음
4. Nonlinearity: Saturation
spike를 통해 신호의 크기를 나타내기는 어려움
spike는 신호의 time순서에 따라 변동될 뿐임
하지만 hair cell마다 반응을 잘하는 cell이 존재하는데 그걸 비교하면 됨
따라서, 신호의 크기를 나타내기 위해 hair cell을 비교하면
아래 그림과 같음
(1번이 반응을 잘하는 셀)
데시벨을 증가시키면 반응을 잘하는 셀도 파란색 선과같이 saturation되어
고저를 표현하지 못함(피로도 증가)
Nonlinearity: Two-Tone Suppression
특정 hair cell이 특정 tone에 잘 적응이 되어있다면
신호가 들어오는 순간 spike가 suppress되고
자극이 사라지는 그시점(노란선)에 다시 spike가 되는 현상임
하나의 셀은 하나의 주파수에 튜닝이되는 현상을 보인다는 말임
원래 노란색에서 익숙해져있는 hair cell에
새로운 주파수(회색영역)이 입력된 경우 차이에 대해 민감해진다는 뜻이 위의그림임
Nonlinearity: Masking of a Tone by Noise
Tone은 일정한 sound인데 그 tone이 일정한 수준이하이면 반응이 없는 것이고,
특정 수준을 넘어야지 반응하게 됨
근데, 그때 noise가 섞여 있으면 소리가 약할 때는 섞여있다가
tone이 충분히 세지는 구간(교차점)에서는 noise도 점점크게 인식되어 실제 tone을 down시키는 것임
Nonlinearity: Combination Tones
하나의 cell(fiber)가 2개의 자극(1.0khz, 1.1khz)에 노출되어 있는 경우
combination tone은 다양한 자극에 대해서 반응함
예를 들어, 1.0khz와 1.1khz의 차이에 대해 반응하거나
다양한 자극에 대해서 반응하게 됨
'IT > 음성신호처리' 카테고리의 다른 글
Psychoacoustics 심리음향 (0) | 2023.04.20 |
---|---|
Sound Waves and Wave Equation (0) | 2023.04.13 |
speech production (0) | 2023.04.07 |
wave basic (0) | 2023.04.06 |
LTI Systems과 여러종류의 digital filter (0) | 2023.03.30 |