let us not love with words or tongue but actions and truth.

IT/파이썬

데이터 추출하기 - 정규분포 vs. 임의복원추출

sarah0518 2021. 4. 19. 22:01

아래와 같은 데이터가 있을 때, random sampling을 통해

새로운 데이터를 생성하는 방법을 알아보겠습니다.

 

 

 

 

연습해볼 추출 방법은 아래와 같습니다.

 

1. 정규본포를 따르는 모형에서 random 추출하기(1000개)

 

2. 기존 데이터에서 임의 복원 추출하기(1000개)

 

 

 

우선 1번을 먼저 실습해볼게요!

 

정규분포모형에서 random 추출

 

1
new_col=np.random.normal(df['A_col'].mean(),df['A_col'].std(),1000)
cs

 

위에는 A_col의 평균값과, 표준편차 값을 통해 분포를 생성하고

그 분포 내에서 random하게

1000개의 sample을 추출하여 new_col이라는 값에 넣어줍니다.

 

그 결과를 그래프로 그려보면 아래와 같아요.

 

 

1
2
3
plt.figure(figsize=(6,4))
sns.distplot(df['A_col'])
sns.distplot(new_col)
cs

 

 

 

 

임의 복원 추출하기

 

이번엔 기존 데이터에서 random하게

1000개의 sample을 복원추출하여 new_col이라는 값에 넣어줍니다.

 

1
new_col=np.random.choice(df['A_col'],6823,replace=True)
cs

 

 

위와 동일하게 그래프를 그려보면, 결과는 아래와 같습니다.