let us not love with words or tongue but actions and truth.

imbalanced 2

Isolation Forest와 One-Class SVM

우리의 현실 데이터는 Imbalanced 된 data가 많이 존재하죠. 그래서 오늘은 Imbalanced 된 데이터를 분석하는 모델링에 대해서 알아보려고 합니다. 1. Isolation Forest 2. One Class SVM 위의 두개에 대해서 알아보려고 해요. 이론에 대해서 deep하게 설명하는 것은 저의 능력을 벗어나므로, 간단히 설명하면 실제 모든 True인 데이터에 대해 분류기를 training을 시킵니다. 그러다가 그 데이터셋과 다른 특징을 나타내는 data들이 들어오면 "기존것과의 패턴이 다르다"고 판단하여 분류해 내는 모형이라고 생각하시면 될거같아요. 이것이 바로 One Class Classification 모델의 기본 idea입니다. 두 모델의 가장 중요한 것은 hyper paramet..

IT/파이썬 2021.02.23

Imbalanced Dataset에서의 over sampling과 cross validation

지금 분석 하려고 하는 내용은 복잡하니, 개괄적인 내용만 미리 정리해보겠습니다. 우선 Imbalanced Dataset를 모델링시키기 위해서는 아래와 같은 순서로 진행합니다. StratifiedKFold기법을 적용하여, train과 test dataset으로 쪼개고 Train dataset의 Minority class를 over sampling하고 over sampling 된 traing dataset으로 모델을 Traning 시킨 후 원래 데이터의 test dataset을 통해 test한 후 모델설명력을 평균 내는 것 (cross validation의 원리) 왜 imbalanced dataset에서는 위와 같이 복잡하게 진행할까라고 하시는 분들은 아래 설명을 보시면 조금 이해가 될거 같습니다. www...

IT/파이썬 2020.12.09