Home [수학/확률과 통계] 표본모멘트, 확률변수
포스트
취소

[수학/확률과 통계] 표본모멘트, 확률변수

2021-06-26 7장 확률변수와 상관관계 복습


표본 모멘트 : 표본분포 각종 특성치

  • 표본평균

1차 모멘트

표본값들 산술평균이자 대푯값

x_bar = np.mean(x)

  • 표본분산 & 표준편차

2차 모멘트

표본값들이 평균에서 떨어진 정도 (분포의 대푯값)

x_var = np.var(x, ddof=1) 비편향 표본분산

x_std = np.std(x, ddof=1) 비편향 표본표준편차

  • 표본 비대칭도

3차모멘트에서 유도

표본 비대칭도가 양수 + : 표본분포에서 표본평균 기점으로 오른쪽에 있는 데이터들 빈도가 높다.

표본 비대칭도가 음수 - : 표본분포에서 표본평균 기점으로 왼쪽에 있는 데이터들 빈도가 높다.

표본 비대칭도가 0 : 표본평균 기점으로 표본분포가 완벽한 좌우대칭이다.

sp.stats.skew()

  • 표본 첨도 (뾰족도)

4차 모멘트에서 유도

기준 : 정규분포

표본 첨도가 양수 : 표본분포 형상이 정규분포보다 표본평균에 모여있음 (뾰족)

표본 첨도가 음수 : 표본분포 형상이 정규분포보다 표본평균에서 멈 (뭉툭)

sp.stats.kurtosis()


확률변수 : 확률변수가 ‘내포’하고 있는 표본공간에 들어있는 표본들을 실수값으로 바꿔서, 현실세계 데이터(표본)으로 보내준다.

확률변수는 ‘확률적 실수데이터 생성기’ 이다.

  • 이산확률변수 : 확률변숫값이 [불연속적]인 경우
  • 연속확률변수 : 확률변숫값이 [연속적]이고 [무한개] 일 경우

확률변숫값(=표본값=데이터)에 할당된 확률은 정확히 알 수 없다. 빈도만 보고 대강 이정도 확률이 할당 되어서 나왔겠구나’라고 추정.짐작 만 할 수 있다.

이 확률변숫값(=데이터)의 확률 하나하나를 직접 찾는 과정이 추정이다.

데이터 하나하나만 가지고는 할당된 확률을 말할 수 없다. 빈도만 측정할 수 있다. 빈도를 보고 대략 확률이 어느정도 할당 되어 있겠거니 짐작할 뿐이다.


확률변수를 사용한 데이터분석 과정

  1. 시뮬레이션 해서 확률변수로부터 표본을 얻는다.
  2. 얻은 표본의 분포를 활용해서 확룰변수의 확률분포를 추정. 짐작한다. <– 추정. 짐작에 자주 사용되는 방법이 ‘기술통계값이 비슷한 확률분포를 찾는 방법’이다.
  3. 확률변수의 확률분포를 결정하면, 그걸 써서 다음번에 나올 데이터 또는 데이터 특성 예측한다.