표본 모멘트 : 표본분포 각종 특성치

1차 모멘트

표본값들 산술평균이자 대푯값

x_bar = np.mean(x)

2차 모멘트

표본값들이 평균에서 떨어진 정도 (분포의 대푯값)

x_var = np.var(x, ddof=1) 비편향 표본분산

x_std = np.std(x, ddof=1) 비편향 표본표준편차

3차모멘트에서 유도

표본 비대칭도가 양수 + : 표본분포에서 표본평균 기점으로 오른쪽에 있는 데이터들 빈도가 높다.

표본 비대칭도가 음수 - : 표본분포에서 표본평균 기점으로 왼쪽에 있는 데이터들 빈도가 높다.

표본 비대칭도가 0 : 표본평균 기점으로 표본분포가 완벽한 좌우대칭이다.

sp.stats.skew()

4차 모멘트에서 유도

기준 : 정규분포

표본 첨도가 양수 : 표본분포 형상이 정규분포보다 표본평균에 모여있음 (뾰족)

표본 첨도가 음수 : 표본분포 형상이 정규분포보다 표본평균에서 멈 (뭉툭)

sp.stats.kurtosis()

확률변수 : 확률변수가 ‘내포’하고 있는 표본공간에 들어있는 표본들을 실수값으로 바꿔서, 현실세계 데이터(표본)으로 보내준다.

확률변숫값(=표본값=데이터)에 할당된 확률은 정확히 알 수 없다. 빈도만 보고 대강 이정도 확률이 할당 되어서 나왔겠구나’라고 추정.짐작 만 할 수 있다.

이 확률변숫값(=데이터)의 확률 하나하나를 직접 찾는 과정이 추정이다.

시뮬레이션 해서 확률변수로부터 표본을 얻는다.
얻은 표본의 분포를 활용해서 확룰변수의 확률분포를 추정. 짐작한다. <– 추정. 짐작에 자주 사용되는 방법이 ‘기술통계값이 비슷한 확률분포를 찾는 방법’이다.
확률변수의 확률분포를 결정하면, 그걸 써서 다음번에 나올 데이터 또는 데이터 특성 예측한다.