let us not love with words or tongue but actions and truth.

IT/머신러닝(수업)

2차 미분을 이용한 최적화

sarah0518 2021. 11. 22. 23:38

SGD와 같이 1차 미분을 통한 최저점을 찾는 방법에 대해서는

성능이 느리다는 단점이 있습니다.

 

지그재그로 경사를 내려가며 최저점을 찾기 때문에, 

매우 속도가 느린 것이지요.

 

그 것의 대안으로 2차 미분을 이용한 최적화 방법이 있습니다.

 

2차 미분은 아래 그림의 빨간선과같이

더 빠른 최저점을 찾아갈 수 있는 대안을 제시합니다.

 

머신러닝 BY. 한빛 아카데미

 

2차 미분을 활용하여, 매개변수를 업데이트 하는 수식은 아래와 같지요.

 

여기서 H(Hessian)은 2번 미분한 값입니다.

 

2차 미분의 가장 큰 단점은 아래와 같습니다.

1. 과다한 계산량 필요 

2. 2차 미분이 불가능한 수식들이 존재

 

이 문제점을 해결하기 위해,

켤레그레디언트 방법유사뉴턴 방법이 등장했습니다.

머신러닝 BY. 한빛 아카데미

 

왼쪽 그림은 SGD방법이고 오른쪽은 켤레그레디언트 방법입니다.

 

SGD방법에서 w1, w2, w3... 을 따라가보면

지그재그로 이동하는 것을 알 수 있습니다.

 

반면 오른쪽 그림은 w1시점에서 g1방향으로 이동하고,

최저점에서 다시 g2방향으로 이동하기 전에,

g1의 방향을 기억하고 초록색 선으로 수정하는 것입니다.

 

즉, 다시 말하면 켤레그레디언트 방법은

직전에 사용한 방향(pt-1)을 기억하여 다음 순간(pt)에

(pt-1과 pt)의 conjugate(켤레 쌍)을 활용하는 것입니다.

 

그 다음은 유사뉴턴 방법입니다.

 

유사뉴턴방법은 H(Hessian)을 구하기가 어려우니,

그에 근사한 값은 M을 구하여 사용하는 것입니다.

 

처음에는 단위행렬 I로 시작하여 그레디언트 정보를 이용하여

점점 H에 근사하는 M을 찾아나가는 방법입니다.

 

 

 

'IT > 머신러닝(수업)' 카테고리의 다른 글

RBM과 DBN  (0) 2021.12.12
오토 인코더  (0) 2021.11.25
규제 기법2 - Augmentation, Dropout, 앙상블  (0) 2021.11.21
규제 기법 - Ridge & Lasso  (0) 2021.11.20
배치 정규화  (0) 2021.11.15