2021-06-26 7장 확률변수와 상관관계 복습
표본 모멘트 : 표본분포 각종 특성치
- 표본평균
1차 모멘트
표본값들 산술평균이자 대푯값
x_bar = np.mean(x)
- 표본분산 & 표준편차
2차 모멘트
표본값들이 평균에서 떨어진 정도 (분포의 대푯값)
x_var = np.var(x, ddof=1) 비편향 표본분산
x_std = np.std(x, ddof=1) 비편향 표본표준편차
- 표본 비대칭도
3차모멘트에서 유도
표본 비대칭도가 양수 + : 표본분포에서 표본평균 기점으로 오른쪽에 있는 데이터들 빈도가 높다.
표본 비대칭도가 음수 - : 표본분포에서 표본평균 기점으로 왼쪽에 있는 데이터들 빈도가 높다.
표본 비대칭도가 0 : 표본평균 기점으로 표본분포가 완벽한 좌우대칭이다.
sp.stats.skew()
- 표본 첨도 (뾰족도)
4차 모멘트에서 유도
기준 : 정규분포
표본 첨도가 양수 : 표본분포 형상이 정규분포보다 표본평균에 모여있음 (뾰족)
표본 첨도가 음수 : 표본분포 형상이 정규분포보다 표본평균에서 멈 (뭉툭)
sp.stats.kurtosis()
확률변수 : 확률변수가 ‘내포’하고 있는 표본공간에 들어있는 표본들을 실수값으로 바꿔서, 현실세계 데이터(표본)으로 보내준다.
확률변수는 ‘확률적 실수데이터 생성기’ 이다.
- 이산확률변수 : 확률변숫값이 [불연속적]인 경우
- 연속확률변수 : 확률변숫값이 [연속적]이고 [무한개] 일 경우
확률변숫값(=표본값=데이터)에 할당된 확률은 정확히 알 수 없다. 빈도만 보고 대강 이정도 확률이 할당 되어서 나왔겠구나’라고 추정.짐작 만 할 수 있다.
이 확률변숫값(=데이터)의 확률 하나하나를 직접 찾는 과정이 추정이다.
데이터 하나하나만 가지고는 할당된 확률을 말할 수 없다. 빈도만 측정할 수 있다. 빈도를 보고 대략 확률이 어느정도 할당 되어 있겠거니 짐작할 뿐이다.
확률변수를 사용한 데이터분석 과정
- 시뮬레이션 해서 확률변수로부터 표본을 얻는다.
- 얻은 표본의 분포를 활용해서 확룰변수의 확률분포를 추정. 짐작한다. <– 추정. 짐작에 자주 사용되는 방법이 ‘기술통계값이 비슷한 확률분포를 찾는 방법’이다.
- 확률변수의 확률분포를 결정하면, 그걸 써서 다음번에 나올 데이터 또는 데이터 특성 예측한다.