let us not love with words or tongue but actions and truth.

IT/패턴인식

Bayesian 결정이론

sarah0518 2022. 9. 19. 19:23
728x90

사후확률이란: 

P(ωi|x) x가 주어졌을때 그것이 부류 ωi에서 발생했을 확률



아래그림처럼 분류가 안되는 이유

6을 분류하기 위한 것이지만 다른 숫자의 분포와 유사함

잘 못된 feature를 뽑았을 경우 분류가 잘 안될 수 있음




확률밀도함수의 필요조건

P(x)가 양수여야되고 P(x)의 모든 합은 1이어야 함



확률기초

d-dimension : random 변수에 해당함 (패턴 인식에서 특징 각각이 랜덤 변수에 해당함)

  • 주사위에서 3을 뽑을 것인지 4를 뽑을 것인지

n- sample

c- class

parameter 개수는 (d^2 + d ) / 2임

 

 

생각 1  

상자 A의 하얀 공 확률과 상자 B의 하얀 공 확률을 비교하여 큰 쪽을 취한다.  

P(하양|B)=9/15 > P(하양|A)=2/10 이므로 ‘상자 B에서 나왔다’고 말함  

조건부 확률 P(Y|X)를 사용한 셈이다. 타당한가?  

이 조건부 확률을 우도라고 likelihood 부름 

 

생각 2  

상자 A와 상자 B의 선택 가능성을 비교하여 큰 쪽을 취한다.  

P(A)=7/10 > P(B)=3/10 이므로 ‘상자 A에서 나왔다’고 말함  

사전 확률 P(X)를 사용한 셈이다. 타당한가?  

 

결론: 

생각 1과 생각 2의 한계  극단적으로 P(A)=0.999라면 생각 1이 틀린 것이 확실하다.  극단적으로 P(하양|A)=0.999라면 생각 2가 틀린 것이 확실하다.  

결론: 우도와 사전 확률을 모두 고려함이 타당

 > 즉 P(X|Y)를 사용하겠다는 생각이 타당하다.

>  P(X|Y)를 사후 확률이라 함



 

  • Prior: 상자 A, B가 선택될 확률 : P(wi)

   ** 사전확률에서는 N이 충분히 커야 실제값이 가까워짐

  • Likelihood: sample의 분포 (하얀공의 분포)

        = P(x|wi)

        = 조건부 확률 활용

        = 확률분포함수

  • Posterior: P(wi|x)

사후 확률을 고려하여 분류하는 것이 

사전확률 & likelihood를 모두 고려할 수 있기 때문이 더 좋은 방법임

( 각각이 어떤 것을 뜻하는지 이해하는 것 중요함)



⅀P(x | wi) =1  

아래 파란선의 길이와 빨간선의 길이의 합은 1임

노란색 영역은 오류영역임

3번까지는 = sample mean (평균)

6번까지는= sample variance (공분산)



예제) 

평균의 dimension= sample dimension = 3

8개의 샘플



최소오류 베이시안 분류기

** 최소오류와 위험은 비례관계에 있음

사후 확률은 직접 구할 수 없음. 왜?  

베이스 정리를 이용하여 사후 확률 계산을 사전 확률과 우도로 대치

공통분모이기도 하고, 계산할 수가 없기 때문에 무시함




사전 확률 계산  

P(ω1 )=n1 /N, P(ω2 )=n2 /N  

정확한 값이 아니라 추정 (N이 커짐에 따라 실제 값에 가까워짐)




우도 계산  

훈련 집합에서 ωi에 속하는 샘플들을 가지고 P(x|ωi) 추정  

> parametric density function

부류 조건부 확률 이라고도class-conditional probability 함 




특수한 경우로 

특수경우1. 사전 확률이 0.5인 경우 우도만으로 분류   = equal prior라고 함

특수경우2. P(ω1 )>>P(ω2 )인 경우 사전 확률이 의사 결정 주도




오류확률

 

오류확률은 파란색 면적의 합

 

원래 전체 1의면적인 것이 2개가 합쳐지는거라 최대 2의 값을 가지지만,

나누기 2를 해줌으로써 1이하의 값을 갖도록 설정함

 

t의 지점이 오류를 최소화할수 있는 적정값임 (중요!!)

--> 최소오류 베이지안 분류방법w1이 w2로 분류되는 경우와w2가 w2로 분류되는 상대적 손실이 달라질 수 있음--> risk함수를 계산함 (최소위험 베이지언 분류기)




손실행렬



최소위험 베이지언 분류기

* 오류하고 확률은 반비례

* 확률과 위험도 반비례

* 따라서, 오류와 위험은 비례

 

위험을 최소화 하는 분류기

1번으로 분류할 때의 risk

2번으로 분류할 때의 risk

위의 식을 같다고 놓고 표현하면

** 0-1 loss function: 최소 위험 분류기와 최소 오류 분류기가 같아지는 것임

   사전 확률이 0.5이면 최소위험 분류기 = 최소오류 분류기

(0: 제대로 분류 한 것, 1: 오분류 한것)

   

 

 

 

분류로직

T ↓ → R1 ↑ (R: region)

T 가 작아지려면 C21 ↓  or P(w2)  ↓  or  C12 ↑  or  P(w1)    하는 경우임그러므로 R1 커지는 거라고 할 수 있음

C21 ↓ → P(w2)  ↓ 

(C21 ↓ : 2를 1로 분류하는 위험이 작아짐 그러므로, 1로 분류해도 된다는 뜻이므로

P(w2)  2로 분류하는 확률이 작아진다는 뜻임)        

C12 ↑ → P(w2)  

 

C12 ↑ -> P(w1)  ↑ & P(w2)  ↓ (앞에 1과 비례, 뒤에 2와 반비례) & R1

C12 -> P(w1)  &   P(w2)  (앞에 1과 비례, 뒤에 2와 반비례) & R1 ↓ 

 

C21 ↑ -> P(w2)  ↑ & P(w1)  ↓ (앞에 1과 비례, 뒤에 2와 반비례) & R2

C21  -> P(w2)  &   P(w1)  (앞에 1과 비례, 뒤에 2와 반비례) & R2 ↓ 

 

위의 그림에서 theta(=T)가 커지면 (theta-b로 증가) R1의 영역이 작아짐

아래식도 같이 참고

 

 

 

 

Summary

최소위험분류기에선 cji의 loss 값이 추가로 곱해짐

 

 

위의 값을 통합함수로 써서 분별함수로 다시 표현함

분별함수와 risk함수는 반비례하는 관계 (ji가 반대로 된거 참고)

q가 최소가 된다는 것은 사후 확률이 최대가 된다는 것

( q2  = c12 ↓ & P(w1)  & P(w2) 아래식 참고  )

qi = ∑CjiP(x|wj)P(wj)

    = 1 - CiiP(X|wi)P(wi) 

 

 

분별함수사용의 장점

1. 여러 분류기를 하나의 틀로 표현

2. 주로 로그를 씌워서 간단히 표현할 수 있음(자연로그)

    f(.)가 단조 증가라면 p(x|ωi) P(ωi)대신 gi(x)=f(p(x|ωi) P(ωi)) 사용하여도 같은 결과  

  • f(.)로 log 함수를 주로 사용 
  • log는 곱셈을 덧셈으로 바꾸어 주므로 수식 전개에 유리함



 

728x90

'IT > 패턴인식' 카테고리의 다른 글

선형 SVM  (1) 2022.11.09
신경망 학습  (1) 2022.10.14
확률 분포 추정  (0) 2022.10.02
정규분포에서 베이시안 분류기  (0) 2022.09.29
패턴인식0907  (0) 2022.09.12