let us not love with words or tongue but actions and truth.

IT/머신러닝(수업)

목적함수에 대한 정리

sarah0518 2021. 9. 29. 22:50

기본적으로 통계학에서 목적함수라하면

MSE를 가장 많이 사용했었다.

 

Mean Squre Error로 오차의 제곱의 평균이다.

 

즉, 실제값과 예측값의 오차의 거리를 측정하여 그것의 평균을 가지고 목적함수를 사용한 것이다.

 

말이 목적함수이지만, 결국 이 목적함수를 줄이는게 성능을 높이는 것이라고 생각하면 된다.

 

 

특히 MSE를 회귀분석쪽에서 많이 사용했다고 한다면,

 

Entropy는 분류쪽에서 많이 사용한다.

 

 

오늘은 Entropy 목적함수에 대해서 조금 자세히 살펴보고자 한다.

 

 

정보량을 놀람의 정도라고 생각을 해보자.

 

새로운 정보가 듣도 보도 못한 정보라면, 놀람의 정도는 증가하게 된다. 

 

이걸 수식으로 표현하면

"놀람의 정도 = I(x)=-logP(x)" 라고 할 수 있는데,

왜 logP(x)인가에 대해서는 그래프로 설명해보기로 한다.

 

log(x)가 0~1사이의 값을 가질 때 음수값인데, 

거기에 " - "를 취해줌으로써, 양수가 되고

x가 0으로 갈수록 발생하지 않을 일에 대한 값 -logP(x)의 값(=놀람의정도)가 증가하는 것이다.

 

그렇다면 이걸 활용하여

 

Entropy를 정리해보자.

 

Entropy는 놀람의 평균적인 정도라고 정리를 하고

불확실성의 정도라고 이해를 한다.

 

따라서 수식으로 표현해보면

 

Entropy = E(I(x)) = E(-logP(x)) = 불확실성의 정도이다.

 

 

 

추가로, 상대적 Entropy라는 것도 있다.

 

상대적 Entropy = KL-divergence

--> Q(x)를 예측확률, P(x)를 실제확률이라고 하면

--> KL-divergence = relative entropy = E(-log(Q(x))) - E(-log(P(x)))  이다.

--> 여기에서 우리는 실제확률을 모르기 때문에 KLD를 최소화 하기 위해서는, E(-log(Q(x))) 를 최소화 해야한다.

 

 

마지막으로, cross-entropy이다.

cross-entropy: 두 확률변수 (Q와 P)간의 엔트로피를 뜻함

 

cross-entropy를 머신러닝에서는 주로 목적함수로 사용한다.

 

 

다음에는 교차엔트로피 목적함수의 수식과 

그와 연관된 베르누이 확률분포에 대해서 정리해봐야겠다.