let us not love with words or tongue but actions and truth.
728x90

IT 159

AZURE DP-100자격증 시험 준비 tip

아무리 찾아봐도 정보가 거의 없어, 자격증 취득한 김에 올려봅니다. (무슨 자료로 공부해야하는가!!!에 대한 주 내용이에요) 우선 해당 자격증은 MS에서 주관하는 자격증으로, 2년의 유효기간이 있습니다. 공부 준비는 아래 사이트에서만 열심히 하셔도 충분합니다. (내용이 많아서 그렇지...) docs.microsoft.com/ko-kr/learn/ Microsoft Learn 경력을 발전시키고 최고의 위치에서 입지를 다지는 데 필요한 기술은 쉽게 얻을 수 있는 것이 아닙니다. 여기 빠른 목표 달성에 도움이되는 실습 교육에 대한 성과 보답형 방식이 있습니다. 포 docs.microsoft.com 1. 위의 MS 홈페이지에 들어가셔서 로그인 하신 뒤 좌측 상단에 Learn라고 되어있는 탭을 클릭합니다. 2. ..

[시간 데이터 다루기] rsub활용하여 시간차이 구하기

시간차이를 구하는 일은 시간데이터를 다루다 보면 정말 빈번하게 있는 일이죠. 꼭 기억하자는 측면에서 오늘 기록해보고자 합니다. 아래와 같은 데이터가 있습니다. 오늘일자가 2021-01-08인 상황에서 "등록기간(년)"이라는 컬럼을 채워야 하는 상황이에요. id 등록일 등록기간(년) ka234 2020.07.08 ?? ka212 2019.08.30 sa934 2020.09.01 sa712 2020.02.01 이 컬럼을 채우기 위해서는 아래와 같이 간단한 코드면 된답니다. 1 2 3 4 5 6 7 8 9 10 11 import datetime import math # 오늘 날짜를 입력받음 now = datetime.date.today() today = pd.Timestamp(now) # 등록일 컬럼을 dat..

IT/파이썬 2021.01.08

[시간 데이터 다루기] to_datetime활용하기

간단히 pandas를 활용해서 시간데이터를 다루는 법을 정리하려고 합니다. 1. datetime으로 형변환하기 2. 날짜, 시간, 분 추출하기 3. 값 변경하기 4. 시간 조건 걸기 1. datetime으로 형변환하기 우리에게 아래와 같은 dataset이 있다고 할게요. start_date_time 지금은 string 타입으로 있는데, 이걸 datetime형으로 바꿔주려고 합니다. 1 df['dt2'] = pd.to_datetime(df['start_date_time'], format='%Y-%m-%d %H:%M', errors='raise') cs [output] 2. 날짜/시간/시/분으로 추출하기 이제 dt2 값을 날짜/시간/시/분으로 쪼개 보려고 합니다. 코드는 더 간단해요. 이미 dt2가 date..

IT/파이썬 2021.01.06

applymap 활용하기

오늘은 파이썬을 이용한 데이터 전처리에 잘쓰이는 applymap을 알아보도록 해요. 보통 dataframe을 다루는 경우가 많은데, 그때 유용하게 잘 쓰입니다. 1. 공백제거 & 대소문자 or 소문자로 통일 2. 시간데이터 다루기 3. 소수점 제거하기 를 간단히 해보려고합니다. 1. 공백제거 & 대소문자 or 소문자로 통일 아래와 같은 df 데이터셋이 있다고 해볼게요. inout컬럼에서 주황색으로 표시된 부분은 공백과 대소문자가 통일되지 않은 경우입니다. 1 2 3 4 5 # 공백제거 df['inout']=df[['inout']].applymap(lambda x: x.strip()) # 대소문자로 통일 df[['inout']]=df[['inout']].applymap(lambda x: x.upper())..

IT/파이썬 2021.01.05

one-hot encoding(원-핫 인코딩)

데이터 전처리작업중 원-핫 인코딩이라는 것이 있습니다. 예를 들어 한 컬럼에 A, B, C라는 값이 있을 경우 아래와 같이 3개의 컬럼을 새로 만들어 해당 되는 컬럼값에 1이라는 값을 넣어주는 것입니다. one-hot encoding을 쓰는 이유는 컬럼을 category화 하여 사용하거나, 각각의 value에 대한 영향력을 파악하기위해서 사용합니다. one-hot encoding은 pandas, keras, tensorflow 라이브러리에서 각각 다른 함수로 존재하지요. 오늘은 각 라이브러리에서 어떤 함수로 사용되는지 간단히 살펴 볼게요!! 그럼 이걸 pandas를 활용해서 인코딩 해주는 법을 소개할게요. 1 2 3 import pandas as pd dum_col=pd.get_dummies(df1['c..

IT/파이썬 2021.01.04

kkma를 활용한 word cloud 그리기

오늘은 간단히 kkma를 import 해서 word cloud를 그려보려고 해요. 5가지 단계로 나눠봤으니 천천히 따라오시면 됩니다. 우선 간단히 kkma를 import 하시고 comment라는 파일을 불러옵니다. 1. 단어추출 1 2 3 4 5 6 7 8 9 10 11 12 13 14 from konlpy.tag import Kkma kkma = Kkma() import pandas as pd # 한글파일이라 cp949로 encoding 해줍니다. cmt = pd.read_csv('comment.csv',encoding='cp949') # 2021년 목표글에 있는 단어들을 추출해서 list로 만들어주는 함수 def create_n(table): # final 이라는 list에 단어들을 추출해서 담을 예..

IT/파이썬 2021.01.03

Permutation Feature Importance(변수중요도)를 통한 feature selection

오늘은 permutation feature importance에 대해서 알아보려고 해요. 파이썬 코드에 대한 설명에 앞서서, 기본 변수중요도를 파악하는 방법과의 차이를 간단히 설명 드릴게요. stepwise, backward, forward 방식은 변수중요도를 파악하는 가장 간단한 방법이죠. SAS에서 주로 활용하긴 하는데, Forward는 변수를 하나씩 추가하면서 설명력이 높이지는 가장 best feature들을 찾는 것이고, 반대로 Backward는 전체 변수를 다 넣고 시작해서, 하나씩 변수를 제거하는 방식으로 진행합니다. stepwise는 단계별로 변수를 넣었다 제거하는 방식이구요. 파이썬에서 기본적인 feature importance를 구하는 방식도 stepwise와 유사하다고 보시면 됩니다. ..

IT/파이썬 2020.12.24

Dummy Classifier

기본적으로 dummy classifier는 모델 성능을 비교할 때, base line을 명시해 줌으로써 어느 정도의 성능이 나오는지 비교하기 위해 사용합니다. DummyClassifier 라이브러리를 import 하기 전에, 우선 설명력을 쉽게 print할 수 있는 코드를 먼저 함수로 정의해 볼게요. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 from sklearn.model_selection import cross_val_score def cv_recall(model, x, y): scores = cross_val_score(model, x, y, cv=5, scoring='recall'); scores #print("Mean:..

IT/파이썬 2020.12.23
728x90