규제 기법에는 크게 아래와 같은 2가지 종류가 있다.
1. 명시적 규제: 가중치 감쇠나 Dropout처럼 목적함수나 신경망 구조를 직접 수정하는 방식
2. 암시적 규제: 조기멈춤, 데이터 증대, 잡음 추가, 앙상블 등
이번에는 명시적 규제의 가중치 감쇠기법의 2가지인
Ridge와 Lasso에 대해 정리해보고자 한다.
아, 참고로 그전에 규제항이라는 것에 대해 간단히 살펴보자.
위 그림에서는 가중치를 업데이트 하는 공식에서 규제항을 더해줌으로써
큰 가중치값을 억제하는 효과를 가져온다.
단, 규제항은 weight에만 적용되며 절편에는 적용이 하지 않는다.
예를 들어, y=wx+b라고 하면 weight인 w에만 규제항을 추가하고,
b에는 추가 하지 않는 것이다.
왜냐하면 weight는 노드의 상호작용을 표현하지만
b는 각 층에 공통적으로 적용해주기 때문이다.
1. Ridge: L2 norm을 사용하는 기법
L2 norm을 사용한 ridge 가중치 감쇠기법은 아래와 같다.
이 값을 미분하면 아래와 같다.
따라서, 매개변수를 갱신하는 수식은 아래와 같다.
위의 수식에서 기존 매개변수를 갱신하는 수식과의 차이점은
1-2ρλ 이다.
즉, 항상 1보다 작은 값을 갖게 함으로써 가중치를 작게 유지할 수 있는 것이다.
2. Lasso : L1 norm을 사용하는 기법
L1 norm을 사용한 가중치감쇠기법 Lasso의 수식과
그것을 미분 한 수식이다.
여기서 Sign(θ) 라는 값은 부호함수이다.
즉, x>0 일 때 Sign(θ) = x
x<0 일 때 Sign(θ) = -x
아래는 매개변수를 갱신하는 수식이다.
Lasso의 특징은 아래와 같다.
0이 되는 매개변수가 많으며,
이를 통해 선형회귀에서는 변수 선택효과를 줄 수 있고
신경망에서는 0이 된 가중치를 제거함으로써
희소연결(sparse)구조로 바꿀 수 있다.
(Dropout과 유사)
Ridge와 Lasso비교
1. Lasso는 Ridge보다 이상치에 대한 영향을 덜 받는다.
2. Lasso는 Ridge에 비해 학습파라미터의 전체적인 값들에 영향을 주지 않는다.
'IT > 머신러닝(수업)' 카테고리의 다른 글
2차 미분을 이용한 최적화 (0) | 2021.11.22 |
---|---|
규제 기법2 - Augmentation, Dropout, 앙상블 (0) | 2021.11.21 |
배치 정규화 (0) | 2021.11.15 |
가중치 초기값- He, Xavier initialization (0) | 2021.11.14 |
6가지의 activation function과 7가지의 optimizer (0) | 2021.10.25 |