Bayesian 결정이론

IT/패턴인식

Bayesian 결정이론

sarah0518 2022. 9. 19. 19:23

728x90

사후확률이란:

P(ωi|x) x가 주어졌을때 그것이 부류 ωi에서 발생했을 확률

아래그림처럼 분류가 안되는 이유

잘 못된 feature를 뽑았을 경우 분류가 잘 안될 수 있음

확률밀도함수의 필요조건

P(x)가 양수여야되고 P(x)의 모든 합은 1이어야 함

확률기초

d-dimension : random 변수에 해당함 (패턴 인식에서 특징 각각이 랜덤 변수에 해당함)

주사위에서 3을 뽑을 것인지 4를 뽑을 것인지

n- sample

c- class

parameter 개수는 (d^2 + d ) / 2임

생각 1

상자 A의 하얀 공 확률과 상자 B의 하얀 공 확률을 비교하여 큰 쪽을 취한다.

P(하양|B)=9/15 > P(하양|A)=2/10 이므로 ‘상자 B에서 나왔다’고 말함

조건부 확률 P(Y|X)를 사용한 셈이다. 타당한가?

이 조건부 확률을 우도라고 likelihood 부름

생각 2

상자 A와 상자 B의 선택 가능성을 비교하여 큰 쪽을 취한다.

P(A)=7/10 > P(B)=3/10 이므로 ‘상자 A에서 나왔다’고 말함

사전 확률 P(X)를 사용한 셈이다. 타당한가?

결론:

생각 1과 생각 2의 한계 극단적으로 P(A)=0.999라면 생각 1이 틀린 것이 확실하다. 극단적으로 P(하양|A)=0.999라면 생각 2가 틀린 것이 확실하다.

결론: 우도와 사전 확률을 모두 고려함이 타당

> 즉 P(X|Y)를 사용하겠다는 생각이 타당하다.

> P(X|Y)를 사후 확률이라 함

Prior: 상자 A, B가 선택될 확률 : P(wi)

** 사전확률에서는 N이 충분히 커야 실제값이 가까워짐

Likelihood: sample의 분포 (하얀공의 분포)

= P(x|wi)

= 조건부 확률 활용

= 확률분포함수

Posterior: P(wi|x)

사후 확률을 고려하여 분류하는 것이

사전확률 & likelihood를 모두 고려할 수 있기 때문이 더 좋은 방법임

( 각각이 어떤 것을 뜻하는지 이해하는 것 중요함)

⅀P(x | wi) =1

아래 파란선의 길이와 빨간선의 길이의 합은 1임

노란색 영역은 오류영역임

3번까지는 = sample mean (평균)

6번까지는= sample variance (공분산)

예제)

평균의 dimension= sample dimension = 3

8개의 샘플

최소오류 베이시안 분류기

** 최소오류와 위험은 비례관계에 있음

사후 확률은 직접 구할 수 없음. 왜?

베이스 정리를 이용하여 사후 확률 계산을 사전 확률과 우도로 대치

공통분모이기도 하고, 계산할 수가 없기 때문에 무시함

사전 확률 계산

P(ω1 )=n1 /N, P(ω2 )=n2 /N

정확한 값이 아니라 추정 (N이 커짐에 따라 실제 값에 가까워짐)

우도 계산

훈련 집합에서 ωi에 속하는 샘플들을 가지고 P(x|ωi) 추정

> parametric density function

부류 조건부 확률 이라고도class-conditional probability 함

특수한 경우로

특수경우1. 사전 확률이 0.5인 경우 우도만으로 분류 = equal prior라고 함

특수경우2. P(ω1 )>>P(ω2 )인 경우 사전 확률이 의사 결정 주도

오류확률

오류확률은 파란색 면적의 합

원래 전체 1의면적인 것이 2개가 합쳐지는거라 최대 2의 값을 가지지만,

나누기 2를 해줌으로써 1이하의 값을 갖도록 설정함

t의 지점이 오류를 최소화할수 있는 적정값임 (중요!!)

--> 최소오류 베이지안 분류방법w1이 w2로 분류되는 경우와w2가 w2로 분류되는 상대적 손실이 달라질 수 있음--> risk함수를 계산함 (최소위험 베이지언 분류기)

손실행렬

최소위험 베이지언 분류기

* 오류하고 확률은 반비례

* 확률과 위험도 반비례

* 따라서, 오류와 위험은 비례

위험을 최소화 하는 분류기

1번으로 분류할 때의 risk

2번으로 분류할 때의 risk

위의 식을 같다고 놓고 표현하면

** 0-1 loss function: 최소 위험 분류기와 최소 오류 분류기가 같아지는 것임

사전 확률이 0.5이면 최소위험 분류기 = 최소오류 분류기

(0: 제대로 분류 한 것, 1: 오분류 한것)

분류로직

T ↓ → R1 ↑ (R: region)

T ↓ 가 작아지려면 C21 ↓ or P(w2) ↓ or C12 ↑ or P(w1) ↑ 하는 경우임그러므로 R1 커지는 거라고 할 수 있음

C21 ↓ → P(w2) ↓

(C21 ↓ : 2를 1로 분류하는 위험이 작아짐 그러므로, 1로 분류해도 된다는 뜻이므로

P(w2) 2로 분류하는 확률이 작아진다는 뜻임)

C12 ↑ → P(w2) ↓

C12 ↑ -> P(w1) ↑ & P(w2) ↓ (앞에 1과 비례, 뒤에 2와 반비례) & R1 ↑

C12 ↓ -> P(w1) ↓ & P(w2) ↑ (앞에 1과 비례, 뒤에 2와 반비례) & R1 ↓

C21 ↑ -> P(w2) ↑ & P(w1) ↓ (앞에 1과 비례, 뒤에 2와 반비례) & R2 ↑

C21 ↓ -> P(w2) ↓ & P(w1) ↑ (앞에 1과 비례, 뒤에 2와 반비례) & R2 ↓

위의 그림에서 theta(=T)가 커지면 (theta-b로 증가) R1의 영역이 작아짐

아래식도 같이 참고

Summary

위의 값을 통합함수로 써서 분별함수로 다시 표현함

분별함수와 risk함수는 반비례하는 관계 (ji가 반대로 된거 참고)

q가 최소가 된다는 것은 사후 확률이 최대가 된다는 것

( q2 ↓ = c12 ↓ & P(w1) ↓ & P(w2) ↑ 아래식 참고 )

qi = ∑CjiP(x|wj)P(wj)

= 1 - CiiP(X|wi)P(wi)

분별함수사용의 장점

1. 여러 분류기를 하나의 틀로 표현

2. 주로 로그를 씌워서 간단히 표현할 수 있음(자연로그)

f(.)가 단조 증가라면 p(x|ωi) P(ωi)대신 gi(x)=f(p(x|ωi) P(ωi)) 사용하여도 같은 결과

f(.)로 log 함수를 주로 사용
log는 곱셈을 덧셈으로 바꾸어 주므로 수식 전개에 유리함

728x90

저작자표시 변경금지

'IT > 패턴인식' 카테고리의 다른 글

선형 SVM (1)	2022.11.09
신경망 학습 (1)	2022.10.14
확률 분포 추정 (0)	2022.10.02
정규분포에서 베이시안 분류기 (0)	2022.09.29
패턴인식0907 (0)	2022.09.12

현재글Bayesian 결정이론

sarah0518