let us not love with words or tongue but actions and truth.

IT/음성신호처리 14

Diphone Recording

Diphone Recording시 주의할 점 내용이 바뀌지 않는 것에 주의해야함 (waveform의 chunk를 그대로 둬야함) Pitch Variation pitch period를 짧게 가져가는 방법으로, 중간부분을 잘라낸 뒤 적절한뒤 이어 붙이는 방법을 사용함 pitch가 높아진다 = pitch period가 짧아진다. Duration Variation ▫ To increase the duration by 10% you would repeat every 10th pitch cycle ▫ To reduce the duration by 10% you would delete every 10th pitch cycle 각 하나의 pitch period를 그대로 붙이거나 잘라내는 방법을 사용함 unvoiced ..

Pitch & Vocoder

signal에서 pitch는 노란색으로 표현한 부분임 ** Dudley’s slope filter 참고 Difficulties in Pitch Detection unvoiced sound에서는 pitch를 detection하기 힘듬 Difficulties in Pitch Detection 방법 Median Smoothing to Fix Errors  Sequence: 5, 6, 12, 7, 8 -> outlier: 12  New sequence: 5, 6, 7, 7, 8 -> median: 7 12가 outlier로 판단되므로, median값으로 대체하는 것임 이 방법을 pitch computation에 그대로 적용한 것임 Vocoders: voice coding ▫ Analysis-synthesis..

Short-Time Fourier Analysis

• Short-Time Fourier Transform 특징 ▫ Short-time windows ▫ Quasi-stationary ▫ Nonparametric ▫ No model-based ▫ Cf. model-based methods: Linear prediction, homomorphic filtering The short-time transform The short-time transform는 위의 수식과 같이 정의 되는데, 그 뜻은 1번은 2번으로 좌우 대칭 시킨 후, 3번과같이 n만큼 평행 이동(delay)시킨다는 내용임 Short-Time Fourier Transform The short-time transform와 Short-Time Fourier Transform의 차이점은 아래 노란색으..

Homomorphic Processing

x1*x2가 convolution으로 묶여 있을 때 어떻게 분리할 것인가?? ** time domain에서 convolution이 주파수 domain에서는 곱셈으로 표현 됨 homomorphic system은 아래의 2조건을 만족하는 것임 위에 보다 조금 덜 strict한 것이 아래의 내용 즉 O(곱하기)이 다른 연산인 "세모"(더하기)로 변경되는 것만 만족해도 됨 ** 덧셈으로 변형되면 Superposition of linear systems을 적용하여 쉽게 분리 가능 **Z: Z-transform 위와 같은 일련의 과정을 거쳐 다시 원래신호로 복원시킬 수 있음 ** log를 씌워서 곱셈을 덧셈으로 바꿀 수 있음 Complex Cepstrum vs. Real Cepstrum Cepstrum compon..

Psychoacoustics 심리음향

심리음향이란? sound에 대한 개개인의 인식을 측정하는 것 예를 들어, 사람이 pure tone에 대해서 듣는것과 2배의 tone에 대해서 듣는것에 대해 2배라고 인식하지 않을 수 있는 것임 개개인의 impression이 매우 주관적으로 나타나게 되어있음 Sound-Pressure Level and Loudness ** loudness S: 사람이 소리의 세기를 느끼는것 ** sones: loudness를 측정하는 단위 ** intensity I: 실제 소리의 세기 loudness는 I의 0.3지수승이 비례함 1 sone의 정의는 아래와 같음 1sone = " The loudness of a 1000hz tone with 40db" Equal Loudness Curves 사람의 귀는 4khz에서 민감하..

Sound Waves and Wave Equation

Spherical wave equation 3차원 좌표에서 구를 그리고, 그 구위의 point를 2개의 각도(x, y 의 각도와 높이를 알수있는 고도를 표시하는 각도)와 반지름으로 나타낼 수 있음 ** pressure의 크기는 거리에 반비례함 Intensity: 단위 시간동안 단위면적을 지나는 sound의 energy의 양 = pressure * velocity 그러므로 v=p/(ρc) 임 spherical wave에서는 아래와 같은 특성을 가짐 u와 v의 차이 참고 v: particle velocity u: 면적 velocity Decibel Sound Levels Sound pressure level (SPL) and intensity level W: watt임 10^(-12)는 사람이 들을수 있는 ..

Human Auditory System

Human Auditory System 음성인식 전 음성신호를 처리하여(front-end analysis) clean 신호로 복원하기를 원함 (사람의 뇌와 귀는 위의 작업에 최적화 됨) 사람의 귀로 들어오는 신호는 아래와 같이 여러 point에서 변화됨 - wave shapes are distorted, onsets and offsets are enhanced 등 Human Auditory System 특징 - High dynamic range: 가청주파수, db의 range가 큼 - 100 Hz 이하에서는 sensitivity가 감소함 사람의 귀 cochlea: 소리를 대역별로 분할함 ** 기체에서 액체로 변할 경우, impedence가 커서 소리가 전달이 안됨 따라서 뼈를 통해 impedence를 줄..

speech production

vocal tract이 단면적이거나, 평이하지 않으므로 vocla tract을 더 잘 표현하기 위해 연구하는 chapter임 위의 그림처럼 여러개의 단면적을 가진 튜브를 합친 것으로 생각할 수 있음 ( concatenation of N uniform tubes.) 각 단면적 사이의 boundary condition은 순간적으로 변하는것이 아니라, 연속적으로 변한다고 생각하면 됨 (continuous) 따라서 Uk(l, t) = Uk(0, t)가 같다는 이유는, 0~Lk구간 내에서는 pressure나 면적의 velocity가 같다는 말로 구간내에서 continuous하게 움직이기 때문임. all-pole function 각 튜브를 합쳐서 전체 vocal tract을 수식으로 나타내면 아래와 같음 Compl..