let us not love with words or tongue but actions and truth.

IT/음성신호처리

Psychoacoustics 심리음향

sarah0518 2023. 4. 20. 22:32

심리음향이란? 

sound에 대한 개개인의 인식을 측정하는 것

예를 들어, 사람이 pure tone에 대해서 듣는것과

2배의 tone에 대해서 듣는것에 대해 2배라고 인식하지 않을 수 있는 것임

개개인의 impression이 매우 주관적으로 나타나게 되어있음

 

 

Sound-Pressure Level and Loudness

** loudness S: 사람이 소리의 세기를 느끼는것

** sones: loudness를 측정하는 단위

** intensity I: 실제 소리의 세기

loudness는 I의 0.3지수승이 비례함

1 sone의 정의는 아래와 같음

1sone = " The loudness of a 1000hz tone with 40db"

 

 

 

Equal Loudness Curves

사람의 귀는 4khz에서 민감하게 반응함

노란색 표시 영역에서 둔감하게 반응함

0, 10, 20 선들은 데시벨임

소리의 지속 시간이 200ms보다 작으면 원래의 소리의 세기보다 더 작게 인지함

 

 

Frequency Analysis and Critical Bands

noise bandwith를 줄여도 처음에는 반응하지않다가 특정 영역을 넘어서야지 반응함

Until the noise bandwidth decreases to some critical value (critical band),

the listener’s ability to hear the tone remains the same.

노란색영역이 critical band임

저주파에서는 bandwith가 uniform(수평해짐)해지는 아래 그림에서 것을 알 수 있음

 

 

Masking 현상

2개이상의 다른 tone에 노출이 되면

하나의 tone이 다른 tone을 막아버리는 현상임

(hearing thrshold가 2개이상이 tone에 노출되면 증가하기 때문임)

→ 시끄러운 환경에서 모든소리에 다 반응하게 되면 안되므로

일부러 반응하는 threshold를 올려버리고 intensity가 큰소리에만 집중하기 위함임

 

 

3가지 Masking 현상

1. Frequency masking (Simultaneous masking)

2. Temporal masking (non-simultaneous masking)

3. Central masking

 

 

 

1. Frequency masking (Simultaneous masking)

특정 소리가 충분히 높은 level에 있다고 하면 다른 sound가 인지되지 않을 수 있음

A tone more easily masks a tone of higher frequency than of lower frequency.

낮은 주파수보다 높은 주파수가 더 잘 masking 되버림 (저주파소리가 잘들림)

(c) 저주파 소리의 intensity가 큰 경우, 고주파를 masking 시키지만

(d) 고주파 소리의 intensity가 큰 경우, 저주파를 완전히 masking 시키지 못함

→ 고주파 소리가 더 잘 masking 됨

 

 

 

2. Temporal masking (non-simultaneous masking)

시간상에서 충분히 가까운 sound가 인지가 되지 않을 수 있음

예를 들어, Forward masking이 있음

** Forward masking: 먼저 센소리가 나오면 그 소리가 뒤에나오는 소리를 못듣게 만드는 것을 뜻함

가깝다는 것은 10-50ms 내에 다른 소리가 들어오는 것임

** Backward masking: 뒤에소리가 너무 크면 앞에 소리를 못듣게 되는 경우

 

 

 

3. Central masking

실험적으로만 존재하는 현상으로 한쪽귀에는 일정한 tone을 들려주고,

다른 귀에는 noise를 들려주는 경우 한쪽귀의 tone이 잘 안들리는 현상

 

** 위의 다양한 masking 현상을 audio coding이나 feature extraction에 사용함

 

 

Perceptual Cues

Perceptual cues: phonemes을 구별하는 acoustic features

For vowels을 구별하기 위해서는 첫번째 두번째 formant가 중요함

모음의 spectrum

For consonants: 자음을 구변하기위해서도 아래와 같은 것들이 중요함

  Formant of the consonants

▫ Formant transitions

▫ Voicing

▫ Voiced onset time (plosives

'IT > 음성신호처리' 카테고리의 다른 글

Short-Time Fourier Analysis  (0) 2023.05.04
Homomorphic Processing  (0) 2023.05.03
Sound Waves and Wave Equation  (0) 2023.04.13
Human Auditory System  (0) 2023.04.12
speech production  (0) 2023.04.07