let us not love with words or tongue but actions and truth.

분류 전체보기 178

wireless evolution

안테나가 여러개 있는 이유? (안테나 diversity / 안테나 selective diversity) 1. 각 sector별 안테나가 필요함 (라음은 440Hz: 1초에 cos함수가 440번 떨리는 것임) 2. 수신할때 combine & 증폭이 되어 들어와서 더 신호를 잘 받을 수 있음 LoRA: Long Range - 무인자전거 / 킥보드에 설치되는 모뎀에 주로 사용 ** 900MHz: 비면허대역 ** 200KHz: 면허대역 modulation (↔ demodulation) bit에서 cos함수를 추출하는 것 주파수가 높으면 멀리까지 날아가지 않음 주기(T)가 짧으면 f가 길어짐: 고주파 - 멀리 날아가지 않음 주기(T)가 길면 f가 짧아진: 단파 - 멀리 날아감 5G의 3.5~3.6GHz는 좋은 대..

IT/사물인터넷 2023.05.02

Psychoacoustics 심리음향

심리음향이란? sound에 대한 개개인의 인식을 측정하는 것 예를 들어, 사람이 pure tone에 대해서 듣는것과 2배의 tone에 대해서 듣는것에 대해 2배라고 인식하지 않을 수 있는 것임 개개인의 impression이 매우 주관적으로 나타나게 되어있음 Sound-Pressure Level and Loudness ** loudness S: 사람이 소리의 세기를 느끼는것 ** sones: loudness를 측정하는 단위 ** intensity I: 실제 소리의 세기 loudness는 I의 0.3지수승이 비례함 1 sone의 정의는 아래와 같음 1sone = " The loudness of a 1000hz tone with 40db" Equal Loudness Curves 사람의 귀는 4khz에서 민감하..

Sound Waves and Wave Equation

Spherical wave equation 3차원 좌표에서 구를 그리고, 그 구위의 point를 2개의 각도(x, y 의 각도와 높이를 알수있는 고도를 표시하는 각도)와 반지름으로 나타낼 수 있음 ** pressure의 크기는 거리에 반비례함 Intensity: 단위 시간동안 단위면적을 지나는 sound의 energy의 양 = pressure * velocity 그러므로 v=p/(ρc) 임 spherical wave에서는 아래와 같은 특성을 가짐 u와 v의 차이 참고 v: particle velocity u: 면적 velocity Decibel Sound Levels Sound pressure level (SPL) and intensity level W: watt임 10^(-12)는 사람이 들을수 있는 ..

Human Auditory System

Human Auditory System 음성인식 전 음성신호를 처리하여(front-end analysis) clean 신호로 복원하기를 원함 (사람의 뇌와 귀는 위의 작업에 최적화 됨) 사람의 귀로 들어오는 신호는 아래와 같이 여러 point에서 변화됨 - wave shapes are distorted, onsets and offsets are enhanced 등 Human Auditory System 특징 - High dynamic range: 가청주파수, db의 range가 큼 - 100 Hz 이하에서는 sensitivity가 감소함 사람의 귀 cochlea: 소리를 대역별로 분할함 ** 기체에서 액체로 변할 경우, impedence가 커서 소리가 전달이 안됨 따라서 뼈를 통해 impedence를 줄..

Attention의 Q, K, V와 Transformer

Query: decoder time t=4일 때 encoder에서의 context vector를 구해주세요. (query는 decoder에서 나오는 것임) key: encoder vector에서 내적 대상이 되는 set이 key 임(encoder에 있음) value: weight하고 곱해지는 vector의 set이 value임( value도 encoder 에서 나오는 것임) Recurrent model의 단점 ◼ 정보 손실 Recurrent connection은 정보 손실을 유발 ◼ 학습 Recurrent connection은 vanishing gradients와 같은 문제로 학습이 어려움 ◼ 병렬처리 Recurrent connection은 sequential하게 처리되야 하므로 병렬 처리가 어려워 학습..

IT/음성인식 2023.04.12

speech production

vocal tract이 단면적이거나, 평이하지 않으므로 vocla tract을 더 잘 표현하기 위해 연구하는 chapter임 위의 그림처럼 여러개의 단면적을 가진 튜브를 합친 것으로 생각할 수 있음 ( concatenation of N uniform tubes.) 각 단면적 사이의 boundary condition은 순간적으로 변하는것이 아니라, 연속적으로 변한다고 생각하면 됨 (continuous) 따라서 Uk(l, t) = Uk(0, t)가 같다는 이유는, 0~Lk구간 내에서는 pressure나 면적의 velocity가 같다는 말로 구간내에서 continuous하게 움직이기 때문임. all-pole function 각 튜브를 합쳐서 전체 vocal tract을 수식으로 나타내면 아래와 같음 Compl..

wave basic

wave의 수식표현 wave를 수식으로 나타내면, 오른쪽방향(+)으로 파동이 이동하는 것과 왼쪽 방향(-)으로 파동이 이동하는 것을 합해서 표현할 수 있음 standing waves 계속 파동이 발생하면 +방향과 -방향이 overlap되면서 아래와 같이 나타나고 standing wave(위아래로 움직이는 것) 처럼 보인다. lambda: 파장 f: frequency (속도를 파장으로 나눠준 것 f=c(속도)/lambda) k: wave 상수 g+q를 하면 더하기가 곱하기로 표현이 되고 (sin함수 특성) 이것은 위아래로 진동하는것처럼 보이게 됨 Wave Equation for the Sound Wave 가정1. 뉴턴의 제 2법칙을 활용하여 가장 아래의 노란색과 같은 식을 얻을 수 있음 delta(x)가 ..

Vanilla RNN & Seq2seq & attention

Vanilla RNN Vanilla RNN에서 업데이트해야되는 3개의 parameter 1. Wxh 2. Whh 3. Who Vanilla RNN의 단점 영향을 주는 정도가 과거로 갈 수록 점점 작아져 단기 메모리를 갖게 됨 해결책) attention RNN, LSTM, GRU의 한계점 길이가 다른 sequence의 변환이 불가능함 해결책 ) Seq 2 Seq 예시) 번역 Seq 2 Seq with Attention simple한 구조 표현으로 아래와 같이 나타낼 수 있음 Context vector를 사용한다는 게 주요 point임 Context vector input token을 특정차원의 벡터 space로 변환한 벡터임 ** 음성인식에서는 frame을 50으로 가져감 ** encoder와 decode..

IT/음성인식 2023.04.05