비율검정
- 일표본 비율검정 (카테고리값 2개인 카이제곱 적합도 검정)
- 이표본 비율검정 (2*2 카이제곱 동질성 검정)
일표본 비율검정
모비율과 표본비율을 비교해, 베르누이분포 모수 mu에 대한 가설 검정한다.
- 카테고리값 2개일 때 카이제곱 적합도 검정과 같다.
- 보통 표본크기 n이 클 때 이항검정 대신, 일표본 비율검정 사용한다. (예:n=100) 이항분포를 정규분포에 근사시킬 수 있기 때문이다(이항분포 정규근사 참조).
가설:
$H_{0}: \mu = $ 기준값 상수
$H_{a}: \mu \ne$ 기준값 상수
검정통계량분포:
표준정규분포 $N(0,1)$ 를 검정통계량분포로 사용한다.
검정통계량 값:
$z = \frac{\hat{p}-p_{0}}{\sqrt{\frac{p_{0}(1-p_{0})}{n}}}$
-
$\hat{p}:$ 표본 비율
-
$p_{0}:$ 모집단 비율 (기준값 상수)
-
$n:$ 표본 크기
일표본 비율검정 명령
# 일표본 비율검정 명령
prop.test(조건에 맞는 표본 수, 총 표본 수, p=모비율, correct=FALSE)
이표본 비율검정
1개 변수를 두 그룹으로 나눈다.
두 그룹에 대한 베르누이 분포의 $\mu$ 모수 가설을 검정해서,
두 베르누이 분포 모집단이 같은지 다른지 검정한다.
가설:
$H_{0}: \mu_{1} = \mu_{2}$
$H_{a}: \mu_{1} \ne \mu_{2}$
검정통계량분포:
표준정규분포 $N(0,1)$ 을 검정통계량분포로 사용한다.
검정통계량 값:
$z = \frac{\hat{p_{1}} - \hat{p_{2}}}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_{1}}+\frac{1}{n_{2}})}}$
- $\hat{p} = \frac{x_{1}+x_{2}}{n_{1}+n_{2}}$
- $\hat{p_{1}}:$ 표본분포 1의 $p$ 값
- $\hat{p_{2}}:$ 표본분포 2의 $p$ 값
- $x_{1}:$ 표본분포 1 $p$ 값의 분자
- $x_{2}:$ 표본분포 2 $p$ 값의 분자
- $n_{1}:$ 표본분포 1 $p$ 값의 분모
- $n_{2}:$ 표본분포 2 $p$ 값의 분모
이표본 비율검정 명령
# 이표본 비율검정 명령
prop.test(c(표본분포 1 p값 분자, 표본분포 2 p값 분자), c(표본분포 1 p값 분모, 표본분포 2 p값 분모), correct=FALSE)
카이제곱 동질성 검정
1개 변수를 n개 그룹으로 나눈다.
n개 그룹에 대한 카테고리 확률분포 모수벡터 가설을 검정해서,
n개 카테고리 확률분포 모집단이 모두 같은지, 다른지 검정한다.
아래 분할표를 보면 이해가 쉽다.
pd.DataFrame(np.array([
[1,2,3],
[4,5,6]
]),
columns=np.array(['짜장','짬뽕','탕수육']), index=['남자','여자'])
‘성별’ 이라는 변수를 남자와 여자 2개 그룹으로 나눴다.
그리고 남자, 여자 그룹에 대한 표본분포가 2개 있다(짜장,짬뽕,탕수육).
이 표본분포의 모집단은 카테고리 확률분포일 것이다.
카이제곱 동질성 검정은
이 카테고리 확률분포 모집단 2개가 서로 같은지, 다른지 검정한다.
가설
$H_{0}: \mu_{1}=\mu_{2}…=\mu_{n}$
$H_{a}:$ 귀무가설 $H_{0}$ 이 아니다.
R에서 카이제곱 동질성 검정 명령:
# 카이제곱 동질성 검정 명령
chisq.test(분할표)