let us not love with words or tongue but actions and truth.

IT/머신러닝(수업)

규제 기법 - Ridge & Lasso

sarah0518 2021. 11. 20. 12:44

규제 기법에는 크게 아래와 같은 2가지 종류가 있다.

 

1. 명시적 규제: 가중치 감쇠나 Dropout처럼 목적함수나 신경망 구조를 직접 수정하는 방식

2. 암시적 규제: 조기멈춤, 데이터 증대, 잡음 추가, 앙상블 등

 

이번에는 명시적 규제의 가중치 감쇠기법의 2가지인

RidgeLasso에 대해 정리해보고자 한다.

 

아, 참고로 그전에 규제항이라는 것에 대해 간단히 살펴보자. 

위 그림에서는 가중치를 업데이트 하는 공식에서 규제항을 더해줌으로써

큰 가중치값을 억제하는 효과를 가져온다.

 

단, 규제항은 weight에만 적용되며 절편에는 적용이 하지 않는다.

예를 들어, y=wx+b라고 하면 weight인 w에만 규제항을 추가하고,

b에는 추가 하지 않는 것이다. 

 

왜냐하면 weight는 노드의 상호작용을 표현하지만

b는 각 층에 공통적으로 적용해주기 때문이다. 

 

 

1. Ridge: L2 norm을 사용하는 기법

 

L2 norm을 사용한 ridge 가중치 감쇠기법은 아래와 같다. 

이 값을 미분하면 아래와 같다.

 

따라서, 매개변수를 갱신하는 수식은 아래와 같다. 

위의 수식에서 기존 매개변수를 갱신하는 수식과의 차이점은 

1-2ρλ 이다. 

 

즉, 항상 1보다 작은 값을 갖게 함으로써 가중치를 작게 유지할 수 있는 것이다. 

 

 

 

2. Lasso : L1 norm을 사용하는 기법

 

L1 norm을 사용한 가중치감쇠기법 Lasso의 수식과

그것을 미분 한 수식이다. 

 

여기서 Sign(θ) 라는 값은 부호함수이다.

 

즉, x>0 일 때 Sign(θ) = x

    x<0 일 때 Sign(θ) = -x

 

아래는 매개변수를 갱신하는 수식이다. 

 

Lasso의 특징은 아래와 같다.

 

0이 되는 매개변수가 많으며, 

이를 통해 선형회귀에서는 변수 선택효과를 줄 수 있고

신경망에서는 0이 된 가중치를 제거함으로써

희소연결(sparse)구조로 바꿀 수 있다. 

(Dropout과 유사)

 

RidgeLasso비교

1. Lasso는 Ridge보다 이상치에 대한 영향을 덜 받는다.

2. Lasso는 Ridge에 비해 학습파라미터의 전체적인 값들에 영향을 주지 않는다.