규제 기법 - Ridge & Lasso

IT/머신러닝(수업)

sarah0518 2021. 11. 20. 12:44

728x90

규제 기법에는 크게 아래와 같은 2가지 종류가 있다.

1. 명시적 규제: 가중치 감쇠나 Dropout처럼 목적함수나 신경망 구조를 직접 수정하는 방식

2. 암시적 규제: 조기멈춤, 데이터 증대, 잡음 추가, 앙상블 등

이번에는 명시적 규제의 가중치 감쇠기법의 2가지인

Ridge와 Lasso에 대해 정리해보고자 한다.

아, 참고로 그전에 규제항이라는 것에 대해 간단히 살펴보자.

위 그림에서는 가중치를 업데이트 하는 공식에서 규제항을 더해줌으로써

큰 가중치값을 억제하는 효과를 가져온다.

단, 규제항은 weight에만 적용되며 절편에는 적용이 하지 않는다.

예를 들어, y=wx+b라고 하면 weight인 w에만 규제항을 추가하고,

b에는 추가 하지 않는 것이다.

왜냐하면 weight는 노드의 상호작용을 표현하지만

b는 각 층에 공통적으로 적용해주기 때문이다.

L2 norm을 사용한 ridge 가중치 감쇠기법은 아래와 같다.

이 값을 미분하면 아래와 같다.

따라서, 매개변수를 갱신하는 수식은 아래와 같다.

위의 수식에서 기존 매개변수를 갱신하는 수식과의 차이점은

1-2ρλ 이다.

즉, 항상 1보다 작은 값을 갖게 함으로써 가중치를 작게 유지할 수 있는 것이다.

L1 norm을 사용한 가중치감쇠기법 Lasso의 수식과

그것을 미분 한 수식이다.

여기서 Sign(θ) 라는 값은 부호함수이다.

즉, x>0 일 때 Sign(θ) = x

x<0 일 때 Sign(θ) = -x

아래는 매개변수를 갱신하는 수식이다.

Lasso의 특징은 아래와 같다.

0이 되는 매개변수가 많으며,

이를 통해 선형회귀에서는 변수 선택효과를 줄 수 있고

신경망에서는 0이 된 가중치를 제거함으로써

희소연결(sparse)구조로 바꿀 수 있다.

(Dropout과 유사)

1. Lasso는 Ridge보다 이상치에 대한 영향을 덜 받는다.

2. Lasso는 Ridge에 비해 학습파라미터의 전체적인 값들에 영향을 주지 않는다.

728x90

2차 미분을 이용한 최적화 (0)	2021.11.22
규제 기법2 - Augmentation, Dropout, 앙상블 (0)	2021.11.21
배치 정규화 (0)	2021.11.15
가중치 초기값- He, Xavier initialization (0)	2021.11.14
6가지의 activation function과 7가지의 optimizer (0)	2021.10.25

sarah0518