let us not love with words or tongue but actions and truth.

IT/패턴인식

패턴인식0907

sarah0518 2022. 9. 12. 11:57
728x90

사람과 기계의 차이가 연구자들을 끌어들이는 매력으로 작용

  • 인식은 사람에게 (극히) 쉽다.  
  • 인식은 기계에게 극히 어렵다.



인식을 한다는 것은 특징을 찾고 분류한다는 것



얼굴이 작고, 코가 뾰족하고, 눈썹이 짙고, 눈이 작은 샘플이 있다면,  

특징  

  • 얼굴 크기 (x1 ), 코의 모양 (x2 ),눈썹의 짙은 정도 (x3 ), 눈의 크기(x4 )  

분류  

  • x1=작다, x2=뾰족하다, x3=짙다, x4=작다 라는 패턴이 들어왔을 때, 이미 알고 있는 지식에 비추어 아무개일 가능성이 높다라는 의사결정 과정

 

머신러닝시 데이터셋의 구성은

Train / validation / test

 

양적으로 데이터가 확대가 된 이유

2000년대 부터…

인터넷의 발달

저장매체의 발달

레이블이 된 데이터들(getcha)



필기체 숫자를 8*8의 차원으로 표현함

LeNet으로 2000년대에 인식 작업을 함

 

왼쪽의 1의 비율 vs. 오른쪽의 1의 비율

위쪽의 1의 비율 vs. 아래쪽의 1의 비율

 

오른쪽 그림에서 6이 다른 숫자의 분포와 크게 다르지 않아 분류가 어려워 보임

(변별력이 중요함)

차원을 늘릴 때 의미있는 차원들을 추가해야되고, 오히려 차원의 저주문제로 분류기를 더 좋은 걸 쓰는게 좋을 수 있음



(b)가 좋은 것, (c)는 overfitting임

(c)는 training error가 줄어들지만 장점이라고 할 수 없음




연어 vs. 농어 분류

1-dimension의 분류 (길이만 봄)



성능평가 방법

 

 

recall: 전체 정답(positive)이 있을 때 얼마나 정답을 맞췄는가

n11/(n11+n12), TP/(TP+FN)

 

precision(정확률): 정답중에 얼마나 오답이 포함이 되어있는가

n11/(n11+n21), TP/(TP+FP)

 

Acc= (TP+TN)/N

 

정인식률(Acc.)의 반대: error rate = 1 - Acc.



위험risk 기준  

보통 암 환자를 정상이라 오분류하는 것은 정상인을 암 환자로 오분류하는 것보다 위험도가 크다.



성능평가 방법

일반화를 위해

  • 테스트(new data)에 대한 성능
  • 과적합 피해야함

** Occam’s Razor: 오캠의 칼날: 쓸데없이 복잡하게 만들지 말자.



모델 선택을 위해

k-fold cross validation

  • k-fold한 것의 평균값을 성능으로 사용함
  • k번 돌려야 된다는 단점이 있지만 적은 데이터셋으로 분석이 가능할 수 있음

bootstrap

  • sub-set을 중복을 허용한 sampling으로 resample하여 각 데이터셋의 구성을 여러 버전으로 만들어서 모델을 만드는것 : bagging 방법
  • bagging: bootstrap aggrigating



어떻게 인식하나?

- Recognition: 인식 (기존에 봤던 레이블된것을 다시 보는 것)

- Cognition: 인지

 

- Classification (known categories) : 레이블이 있을 때

- Clustering (learning categories) 

레이블이 없을 때, clustering을 통해서 분류함



Rigid object: 딱딱한 물체

non-rigid object: 각도와 물체의 생김새가 다양하게 변하므로 난이도 높음

Intra-class variability의 예시



Inter-class의 예시

inter class 변화가 작고, intra class의 변화가 크면 분류작업이 어려움

 

 

패턴인식 시스템 설계 개발 사이클

 

 

패턴인식 시스템의 처리 과정

  현장 투입 (완전 자동 온라인 작동)

  분할 (segmentation) 모듈 필요 (객채의 라인윤곽을 따야됨)

  다중 분류기 결합 채택 가능

  후처리: /패(파)/?/인(임)/시(식)/ /패/턴/인/식/

  → 빠진 단어들을 채워넣어야되는 후처리의 예시

 

보통은 기계학습(분류모델)에서는 수치적풀이(에러를 줄여나가는 방법)를 사용함

 

728x90

'IT > 패턴인식' 카테고리의 다른 글

선형 SVM  (1) 2022.11.09
신경망 학습  (1) 2022.10.14
확률 분포 추정  (0) 2022.10.02
정규분포에서 베이시안 분류기  (0) 2022.09.29
Bayesian 결정이론  (1) 2022.09.19