let us not love with words or tongue but actions and truth.

IT/머신러닝(수업)

임베딩

sarah0518 2021. 12. 13. 16:36

 

 

“한국어임베딩”(2020), 이기창, 에이콘출판주식회사의2장을 정리해본 내용입니다.

 

그전에 SVD에 대해서 간단히 알아보도록 하겠습니다.

(간단히 하기위해 높임말 생략)

 

SVD: Singular vector decomposition으로 특이값 분해라 한다.

A라는 벡터를 SVD를 통해 아래와 같은 꼴로 만드는 것이다.

 

여기서 U와 V는 직교행렬임

(참고로 직교행렬이란, 모든 행벡터와 열벡터의 크기가 1인 것.

예를들어 단위(I) 벡터)

 

U는 단어공간을 뜻함

U는 Ax(A^T)를 고유값 분해해서 얻어진 직교행렬이고,

V는 (A^T) x A를 고유값 분해해서 얻어진 직교행렬이다.

 

S는 대각행렬로 대각성분외에 모두 0인행렬이며,

대각성분에 특잇값(해당축의 중요도)이 큰 순서로 나열된다.

즉, S행렬의 특잇값이 작다 = 중요도가 낮다

 

S는 Ax(A^T)와 (A^T) x A를 고유값 분해해서 나오는

고유값( λ1, λ2)을 아래식으로 치환 한 값이다.

 

이제 본격적으로 임베딩에 대해서 알아보겠습니다.

 

 

임베딩: 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 바꾼 결과

(다른말로는 분산표현이라함, 임베딩 = 분산표현)

임베딩의 장점: 단어벡터들 사이의 유사도 계산을 가능하게 해줌

 

통계기반 임베딩 기법

잠재의미분석(LSA: Latent semantic Analysis) 활용

 

잠재의미 분석이란:

단어 사용빈도 등 커다란 행렬에 특이값분해(SVD)라는

수학적 기법을 적용해 행렬에 속한 벡터들의 차원을 축소한 것 

 

'IT > 머신러닝(수업)' 카테고리의 다른 글

RBM과 DBN  (0) 2021.12.12
오토 인코더  (0) 2021.11.25
2차 미분을 이용한 최적화  (0) 2021.11.22
규제 기법2 - Augmentation, Dropout, 앙상블  (0) 2021.11.21
규제 기법 - Ridge & Lasso  (0) 2021.11.20