der Wille zur Macht,

[통계학개론 복습] 두 모집단 모수 비교

대표본 일 때. 서로 독립인 두 집단 기댓값 모수 비교

  • 두 모집단 서로 독립
  • 두 모집단 표본 수 25 이상(대표본)

두 모집단 기댓값 모수 차이. 구간추정

$\mu_{1} - \mu_{2}$ 값 구간추정

$\mu_{1} - \mu_{2}$ 값 점 추정치: $\bar{X} - \bar{Y}$

$\mu_{1} - \mu_{2}$ 를 두 그룹 표본 차가 이루는 분포. 기댓값 이라고 보면, $\bar{X} - \bar{Y}$ 는 그에 대한 점 추정치 이자, 표본평균이다.

$E[\bar{X} - \bar{Y}] = \mu_{1} - \mu_{2}$

$V[\bar{X} - \bar{Y}] = V[\bar{X}] + V[-\bar{Y}] = V[\bar{X}] + V[\bar{Y}]$

  • $\bar{X}, \bar{Y}$ 서로 독립이라서 위 식 성립한다.

$V[\bar{X}] + V[\bar{Y}] = \frac{\sigma^{2}{1}}{n{1}}+ \frac{\sigma^{2}{2}}{n{2}}$

$\bar{X}-\bar{Y}$ 가 표본평균 이므로, 중심극한정리 성립한다.

$\frac{(\bar{X}-\bar{Y})-(\mu_{1}-\mu_{2})}{\sqrt{\frac{\sigma^{2}{1}}{n{1}}}+\frac{\sigma^{2}{2}}{n{2}}} \sim N(0,1)$

$\bar{X}-\bar{Y}$ 의 분포는 표준정규분포 근사적으로 따른다.

대표본이므로 $\sigma^{2}{1}, \sigma^{2}{2}$ 를 각각 $s^{2}{1}, s^{2}{2}$ 로 대체해도 무방하다.

$\frac{(\bar{X}-\bar{Y})-(\mu_{1}-\mu_{2})}{\sqrt{\frac{s^{2}{1}}{n{1}}}+\frac{s^{2}{2}}{n{2}}} \sim N(0,1)$

95% 신뢰구간을 구하려면 표준정규분포에서 면적이 0.95 되는 구간 찾으면 된다. 아래와 같이 구간 구할 수 있다.

$P(-Z_{\alpha/2} \leq \frac{(\bar{X}-\bar{Y})-(\mu_{1}-\mu_{2})}{\sqrt{\frac{s^{2}{1}}{n{1}}}+\frac{s^{2}{2}}{n{2}}} \leq Z_{\alpha/2}) = 0.95$

위 구간을 $\mu_{1} - \mu_{2}$ 에 대해 바꾸면

$P((\bar{X} - \bar{Y})-Z_{\alpha/2}\sqrt{\frac{s^{2}{1}}{n{1}}+\frac{s^{2}{2}}{n{2}}} \leq \mu_{1}-\mu_{2} \leq (\bar{X} - \bar{Y})+Z_{\alpha/2}\sqrt{\frac{s^{2}{1}}{n{1}}+\frac{s^{2}{2}}{n{2}}}) = 0.95$

가 되고, 이것이 $\mu_{1}-\mu_{2}$ 에 대한 95% 신뢰구간이다.


두 집단의 기댓값 모수가 같은지, 다른지 검정 하려면 귀무가설을 아래와 같이 놓고 검정할 수 있을 것이다.

$H_{0}: \mu_{1}- \mu_{2} = 0$

$H_{a}: \mu_{1}-\mu_{2} \ne 0$

귀무가설이 참이라는 전제 하에

  • 검정통계량값: $Z = \frac{(\bar{X}-\bar{Y})-0}{\sqrt{\frac{s^{2}{1}}{n{1}}+\frac{s^{2}{2}}{n{2}}}}$

  • 검정통계량 분포(검정통계량값 Z가 따르는 분포): 표준정규분포 $N(0,1)$

로 놓고 유의확률을 구한 뒤. 유의수준과 비교해서 귀무가설 $H_{0}$ 를 기각하거나 채택할 수 있다.


소표본. 정규성. 독립. 등분산성 만족하는 경우 두 집단 기댓값 모수 비교

  • 표본 갯수 25 미만
  • 정규분포에서 나온 표본들
  • 두 집단은 서로 독립
  • 두 정규분포 분산모수 같다

두 모집단 기댓값 모수 차이. 구간추정

$\mu_{1} - \mu_{2}$ 구간추정

점 추정치: $\bar{X} - \bar{Y}$

$E[\bar{X} - \bar{Y}] = \mu_{1} - \mu_{2}$

$V[\bar{X} - \bar{Y}] = V[\bar{X}]+V[\bar{Y}] = \frac{\sigma^{2}}{n_{1}}+\frac{\sigma^{2}}{n_{2}} = \sigma^{2}(\frac{1}{n_{1}}+\frac{1}{n_{2}})$ (등분산가정)

점 추정치 $\bar{X} - \bar{Y}$ 를 표준화 시키면

$\frac{(\bar{X}-\bar{Y})-(\mu_{1}-\mu_{2})}{\sigma\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}} \sim N(0,1)$

$\sigma^{2}$ 은 합동분산 $s^{2}_{P}$ 으로 대체한다.

합동분산 $s^{2}_{P}$

$s^{2}{P} = \frac{1}{n{1}+n_{2}-2}((n_{1}-1)s^{2}{1}+(n{2}-1)s^{2}_{2})$

합동분산 자유도는 합동분산 $s^{2}{P}$ 를 구하는 데 들어가는 표본 수 $n{1}+n_{2}$ 에서 제약조건 $s^{2}{1}, s^{2}{2}$ 2개를 빼서 $n_{1}+n_{2}-2$ 임을 볼 수 있다.

$\Rightarrow$ $\frac{(\bar{X}-\bar{Y})-(\mu_{1}-\mu_{2})}{s_{P}\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}}$

$s_{P}$ 의 자유도가 $n_{1}+n_{2}-2$ 이므로, 위 통계량 값 자유도도 $n_{1}+n_{2}-2$ 가 된다. 위 통계량 값은 자유도가 $n_{1}+n_{2}-2$ 인 t 분포를 따른다.

$\Rightarrow$ $\frac{(\bar{X}-\bar{Y})-(\mu_{1}-\mu_{2})}{s_{P}\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}} \sim t(n_{1}+n_{2}-2)$

이제 t 분포 상에서 면적이 0.95 가 되는 구간을 찾으면, 바로 $\mu_{1}-\mu_{2}$ 의 95% 신뢰구간이다.

$P(-t_{\alpha/2} \leq \frac{(\bar{X}-\bar{Y})-(\mu_{1}-\mu_{2})}{s_{P}\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}} \leq t_{\alpha/2}) = 0.95$

$P((\bar{X} - \bar{Y}) - t_{\alpha/2}s_{P}\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}} \leq \mu_{1}-\mu_{2} \leq (\bar{X} - \bar{Y}) + t_{\alpha/2}s_{P}\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}) = 0.95$


소표본. 정규성. 독립. 인데 등분산성 만족하지 않는 경우

등분산 검정

$0.5 < \frac{s_{1}}{s_{2}} 2$

$\frac{s_{1}}{s_{2}}$ 가 위 부등호 만족하면, 등분산 가정 만족한다.

만약 소표본. 정규성. 독립. 인데 등분산 가정 만족 안 하는 경우:

$\mu_{1} - \mu_{2}$ 의 점 추정치 이자 검정통계량 값으로

$t = \frac{(\bar{X}- \bar{Y}) - (\mu_{1}-\mu_{2})}{\sqrt{\frac{s^{2}{1}}{n{1}}+\frac{s^{2}{2}}{n{2}}}} \sim t((n_{1}-1)\land(n_{2}-1))$

를 쓴다.

  • t분포 자유도는 $n_{1}-1$ 과 $n_{2}-1$ 중 작은 값을 자유도로 삼는다.

대표본일 때, 서로 1:1 대응되는 두 집단 기댓값 비교(쌍체비교)

예)

  • 개인 별로 왼쪽과 오른쪽 눈 시력차이가 있는가?
  • 아스피린 복용 전 후. 혈압에 차이가 있는가?

자료에 대한 가정

$D_{i} = X_{i} - Y_{i}$, $i=1,2,3,…n$

통계량

$E[D_{i}] = \delta$ , $V[D_{i}] = \sigma^{2}_{D}$ 라고 하면,

$\delta$ 에 대한 점 추정치 $\bar{D}$ 는

$\bar{D} = \frac{1}{n}\sum{D_{i}}$ 이다.

$\bar{D}$ 를 표준화 시키면

$\frac{\bar{D} - \delta}{\frac{s_{D}}{\sqrt{n}}} \sim N(0,1)$ 이 된다.

$\Rightarrow$ 검정통계량: $Z$ 통계량 / 검정통계량 분포: $N(0,1)$

예제

Screen Shot 2022-01-08 at 18 10 46

[출처: 부산대학교 김충락 교수님의 R을 이용한 통계학개론 수업_두 모집단의 비교.pdf 16페이지]

내 풀이

1. 95% 신뢰구간 추정

내가 원하는 건 d 모분포 기댓값을 100번 중 95번 꼴로 포함하는 신뢰구간이다.

우선 d 모분포 기댓값의 점 추정치가 필요하다.

기댓값 점 추정치는 표본평균을 사용한다.

$\bar{d} = \frac{1}{15} \sum{d_{i}} = 8.8$

이 점 추정치가 따르는 분포에서. 95% 면적이 되는 구간은 기댓값의 신뢰구간과 같다.

$\bar{d}$ 는 표본평균이다. 중심극한정리에 따라 기댓값이 $\mu$ 이고 표준편차가 $\frac{\sigma}{\sqrt{n}}$ 인 정규분포에 근사한다.

$\bar{d} \sim N(\mu, \frac{\sigma}{\sqrt{n}})$

확률값(면적)을 더 쉽게 구하기 위해 $\bar{d}$ 를 표준화 시킨다. Z 값은 표준정규분포를 근사적으로 따른다.

$\frac{\bar{d}-\mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0,1)$

$\sigma$ 값은 알 수가 없다. 표본표준편차 $s$ 로 대체한다.

$\frac{\bar{d}-\mu}{\frac{s}{\sqrt{n}}}$

이때 표본 수가 $15$ 개로 소표본 이기 때문에, $\sigma$ 를 $s$ 로 대체하면 $z$ 값은 t 값이 되고, 자유도 $n-1$ 인 $t$ 분포를 근사적으로 따른다.

$t$ 분포 자유도가 $n-1$ 인 이유는, $s$ 의 자유도가 $n-1$ 이기 때문이다.

$\frac{\bar{d}-\mu}{\frac{s}{\sqrt{n}}} \sim t(n-1)$

이제 위 t 통계량이 따르는 t분포에서 면적이 0.95 가 되는 구간을 $\mu$ 에 대해 찾으면 된다.

$P(-t_{\alpha/2} \leq \frac{\bar{d}-\mu}{\frac{s}{\sqrt{n}}} \leq +t_{\alpha/2})= 0.95$

기댓값 $\mu$ 에 대한 95% 신뢰구간: $P(\bar{d} - t_{\alpha/2} \frac{s}{\sqrt{n}} \leq \mu \leq \bar{d}+t_{\alpha/2}\frac{s}{\sqrt{n}}) = 0.95$

2. 피임약이 혈압을 감소시킨다고 주장할 수 있는가? $\alpha = 0.01$ 에서 검정하라

가설검정을 위한 귀무가설과 대립가설은 아래와 같이 세울 수 있다.

$H_{0}: \mu = 0$, 혈압이 감소했다고 말할 수 없다

$H_{a}: \mu > 0$, 혈압이 통계적으로 유의미한 정도에서 감소했다.

귀무가설 $\mu = 0$ 이 맞다는 전제 하에, 검정통계량 값은 아래와 같아진다.

검정통계량: $t = \frac{\bar{d}-0}{\frac{s}{\sqrt{n}}}$

검정통계량 분포는 $t$ 분포다.

$\frac{\bar{d}-0}{\frac{s}{\sqrt{n}}} \sim t(n-1)$

검정통계량 분포 상에서, 검정통계량 값과 그 값보다 더 희귀한 값들 나올 확률 구하면 유의확률($p-value$) 다.

그 $p-value$ 값을 $\alpha=0.01$ 과 비교해서, $p-value$ 가

$0.01$ 보다 작으면 귀무가설 기각, 대립가설 채택.

$0.01$ 보다 크면 귀무가설 기각할 수 없다.

R의 t 검정을 이용하면 위 문제를 쉽게 풀 수 있다.

x <- c(70, 80, 72, 76, 76, 76, 72, 78, 82, 64, 74, 92, 74, 68, 84)
y <- c(68, 72, 62, 70, 58, 66, 68, 52, 64, 72, 74, 60, 74, 72, 74)

# Paired t-test
t.test(x, y, paired=T, conf.level=0.95)

# 또는

# One sample t-test
d = x-y
t.test(d)

Screen Shot 2022-01-08 at 18 43 10

Screen Shot 2022-01-08 at 18 43 32

$p-value$ 가 $0.003875$ 로, $\alpha=0.01$ 보다 작다. 따라서 귀무가설 기각, 대립가설 채택한다.

곧, 피입약이 통계적으로 유의미한 정도에서 혈압을 감소시켰다고 말할 수 있다.


서로 독립인 두 집단 모비율 비교

  • 대표본, 모비율 p가 크지도. 작지도. 않은 적당한 값일 때

두 표본집단의 모집단은 베르누이 분포라고 볼 수 있다.

베르누이 분포는 0과 1 값만 내놓는다.

만약 베르누이 시행을 n번 수행한다면, 0과 1로만 구성된 표본이 총 n개 생길 것이다.

0과 1만으로 구성된 n개가 주어진 표본이다.

한편 두 집단 모비율을 비교하는 게 목적이다. 그러면 알고자 하는 모수는 $p_{1}-p_{2}$ 로 생각할 수 있다.

추정하려는 모수: $p_{1}-p_{2}$

그러면 모수의 점 추정치는 $\hat{p_{1}}-\hat{p_{2}}$ 이다.

모수 점 추정치: $\hat{p_{1}}-\hat{p_{2}}$

$\hat{p_{1}} = \frac{\sum{x_{i}}}{n_{1}}$, $\hat{p_{2}} = \frac{\sum{y_{i}}}{n_{2}}$

$\hat{p_{1}}$ 과 $\hat{p_{2}}$ 은 표본평균이라고 볼 수 있다.


모수 $p_{1} - p_{2}$의 구간추정

한편 $p_{1}-p_{2}$ 는 두 집단 표본 차의 기댓값으로 볼 수 있다.

그러면 그 점 추정치 $\hat{p_{1}}-\hat{p_{2}}$ 는 두 집단 표본 차의 표본평균이다.

$\hat{p_{1}}-\hat{p_{2}}$ 가 표본평균이므로, 중심극한정리가 성립한다.

$E[\hat{p_{1}}-\hat{p_{2}}] = p_{1}-p_{2}$

$V[\hat{p_{1}}-\hat{p_{2}}] = V[\hat{p_{1}}]+V[\hat{p_{2}}] = \frac{p_{1}(1-p_{1})}{n_{1}} + \frac{p_{2}(1-p_{2})}{n_{2}}$

$\Rightarrow$ $\hat{p_{1}}-\hat{p_{2}} \sim N(p_{1}-p_{2}, \frac{p_{1}(1-p_{1})}{n_{1}} + \frac{p_{2}(1-p_{2})}{n_{2}})$

$\frac{\hat{p_{1}}-\hat{p_{2}}-(p_{1}-p_{2})}{\sqrt{\frac{p_{1}(1-p_{1})}{n_{1}} + \frac{p_{2}(1-p_{2})}{n_{2}})}} \sim N(0,1)$

모수에 대한 95% 근사적 신뢰구간을 구하면 아래와 같다.

$P(-Z_{\alpha/2} \leq \frac{\hat{p_{1}}-\hat{p_{2}}-(p_{1}-p_{2})}{\sqrt{\frac{p_{1}(1-p_{1})}{n_{1}} + \frac{p_{2}(1-p_{2})}{n_{2}}}} \leq +Z_{\alpha/2}) = 0.95$

$P(\hat{p_{1}}-\hat{p_{2}}- Z_{\alpha/2}\sqrt{\frac{p_{1}(1-p_{1})}{n_{1}}+\frac{p_{2}(1-p_{2})}{n_{2}}} \leq p_{1}-p_{2} \leq \hat{p_{1}}-\hat{p_{2}}+ Z_{\alpha/2}\sqrt{\frac{p_{1}(1-p_{1})}{n_{1}}+\frac{p_{2}(1-p_{2})}{n_{2}}}) = 0.95$

위 식에서 $p_{1}(1-p_{1})$, $p_{2}(1-p_{2})$ 는 모르는 값이다. 추정치로 대신해줘야 한다.

$p_{1}$ 과 $p_{2}$ 추정치는 $\hat{p_{1}}, \hat{p_{2}}$ 이다. 대표본 이므로 $\hat{p_{1}}$ 과 $\hat{p_{2}}$ 는 $p_{1}$ 과 $p_{2}$ 의 꽤 근사한 추정치일 것이다.

$p_{1}(1-p_{1})$, $p_{2}(1-p_{2})$ 을 $\hat{p_{1}}(1-\hat{p_{1}})$ 과 $\hat{p_{2}}(1-\hat{p_{2}})$ 으로 대체하면 아래와 같다.

$p_{1}-p_{2}$ 의 95% 근사적 신뢰구간 $ =$

$P(\hat{p_{1}}-\hat{p_{2}}- Z_{\alpha/2}\sqrt{\frac{\hat{p_{1}}(1-\hat{p_{1}})}{n_{1}}+\frac{\hat{p_{2}}(1-\hat{p_{2}})}{n_{2}}} \leq p_{1}-p_{2} \leq \hat{p_{1}}-\hat{p_{2}}+ Z_{\alpha/2}\sqrt{\frac{\hat{p_{1}}(1-\hat{p_{1}})}{n_{1}}+\frac{\hat{p_{2}}(1-\hat{p_{2}})}{n_{2}}}) = 0.95$


모수 $p_{1}- p_{2}$ 에 대한 가설검정

귀무가설과 대립가설이 가령 아래와 같다고 하자.

$H_{0}: p_{1}-p_{2} = 0$

$H_{a}: p_{1}-p_{2} \ne 0$

가설검정을 위한 검정통계량값은 모수 $p_{1}-p_{2}$ 의 점 추정치 $\hat{p_{1}}-\hat{p_{2}}$ 이다.

검정통계량: $\hat{p_{1}}-\hat{p_{2}}$

유의확률($p-value$) 를 구하기 쉽게 검정통계량값을 표준화한다.

표준화된 검정통계량 $\Rightarrow$ $\frac{\hat{p_{1}}-\hat{p_{2}} - (p_{1}-p_{2})}{\sqrt{\frac{\hat{p_{1}}(1-\hat{p_{1}})}{n_{1}}}+\frac{\hat{p_{2}}(1-\hat{p_{2}})}{n_{2}}} = Z$

표준화된 검정통계량 값은 표준정규분포 $N(0,1)$ 을 따른다.

따라서

검정통계량분포: 표준정규분포 $N(0,1)$

귀무가설이 맞다는 가정 하에, 검정통계량 값은 아래와 같아진다.

$\Rightarrow$ $\frac{\hat{p_{1}}-\hat{p_{2}} - 0}{\sqrt{\frac{\hat{p_{1}}(1-\hat{p_{1}})}{n_{1}}}+\frac{\hat{p_{2}}(1-\hat{p_{2}})}{n_{2}}}$

이제 검정통계량분포(표준정규분포) 상에서 위 검정통계량값 또는 이 값보다 더 희귀한 값들이 나올 확률이 얼마인지 구하면 유의확률 $p-value$ 를 알 수 있다.

유의수준을 $\alpha = 0.01$ 로 설정했다고 가정하자.

유의확률 $p-value$ 가 $0.01$ 보다 작으면 귀무가설 기각, 대립가설 채택.

$0.01$ 보다 $p-value$ 가 크면 귀무가설 기각할 수 없다.

R의 비율검정 $prop.test$ 를 이용하면 서로 독립인 두 집단 모비율을 비교할 수 있다.

# 서로 독립인 두 집단 모비율 비교 

# 모집단1: 시행횟수 100, 성공횟수(1개수) 88
# 모집단2: 시행횟수 150, 성공횟수(1개수) 126

prop.test(x=c(88, 126), n=c(100, 150)) # 표본비율 이용해서 가설검정 한다. 

Screen Shot 2022-01-08 at 23 37 52