Ki Beom Kim

der Wille zur Macht,

[통계학개론 복습] 대표본 기댓값 모수 구간추정, 소표본 & 정규성 가정 만족할 때 기댓값 모수 구간추정, 정규분포 분산 모수 추정

Jan 4, 2022

statistics
R

대표본 일 때 모수 $\mu$ 구간추정

표본 갯수 n > 25 일 때.

모수 $\mu$ 에 대한 구간추정.

중심극한정리에 따라 표본들 평균 $\bar{X}$ 분포는 n이 충분히 클 때. 모분포에 상관없이, 근사적으로 기댓값 $\mu$, 표준편차 $\frac{\sigma}{\sqrt{n}}$ 인 정규분포 따른다.

$n > 25$ 이면 대표본이므로, 충분히 크다고 본다.

$\Rightarrow$ $n > 25$ 이면 $\bar{X}$ 분포는 근사적으로 정규분포 따른다.

이 $\bar{X}$ 를 표준화 시키면 그 표준화 된 것의 분포는 근사적으로 표준정규분포 $N(0,1)$ 을 따른다.

$\Rightarrow$ 어떤 구간의 면적을 자유롭게 구할 수 있게 된다.

이 표준정규분포 $N(0,1)$ 에서 확률분포함수와 X 축 사이 면적이 0.95 가 되는 구간이 모수 $\mu$ 의 95% 신뢰구간이 된다.

$P(-Z_{\alpha/2} \leq \frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}} \leq Z_{\alpha/2}) \simeq 0.95$

$\pm Z = \pm 1.96$

식을 $\mu$ 를 중심으로 고친다.

$P(\bar{X}-1.96\frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+1.96\frac{\sigma}{\sqrt{n}}) \simeq 0.95$

위 구간이 모수 $\mu$ 에 대한 95% 신뢰구간이자 구간추정 결과가 된다.

‘95% 신뢰구간’의 의미는 위 구간을 100번 구했을 때, 95번은 이 구간이 모수 $\mu$ 를 포함한다는 의미다. 곧, 구간추정 방법의 정확도를 의미한다.
위 구간은 엄밀히 말해 모수 $\mu$ 에 대한 95% ‘근사적’ 신뢰구간 이다.

대표본. 기댓값 모수 $\mu$ 신뢰구간 구할 때. 모 표준편차 $\sigma$ 를 아는 경우

신뢰구간 식에 $\sigma$ 를 넣어서 구하면 된다.

만약 위 식에서 $\sigma = 3$ 이면,

$P(\bar{X}-1.96\frac{3}{\sqrt{n}} \leq \mu \leq \bar{X}+1.96\frac{3}{\sqrt{n}}) \simeq 0.95$ 이렇게 된다.

대표본. 기댓값 모수 $\mu$ 신뢰구간 구할 때. 모 표준편차 $\sigma$ 를 모르는 경우

신뢰구간 식에 $\sigma$ 대신 표본표준편차 $s$ 를 넣어도 상관 없다. (대표본 일 때 만)

$P(\bar{X}-1.96\frac{s}{\sqrt{n}} \leq \mu \leq \bar{X}+1.96\frac{s}{\sqrt{n}}) \simeq 0.95$

모수 $\mu$ 구간추정 응용 : 모비율 p 구간추정

만약 표본들이 베르누이 분포에서 나온 표본들이고, 표본 수 $n$ 이 매우 크면서, 모비율 $p$ 가 $0$과 $1$ 사이 적당한 값 인 경우. 모비율 $p$ 구간추정

$np > 15, n(1-p) > 15$

모비율 $p$ 는 베르누이 분포 표본들의 평균과 같다.

$p = \frac{0,1로 이루어진 표본 총합 = 1 개수}{총 표본 수}$ 이기 때문이다.

따라서 모비율 $p$ 구간추정도 위에서 살펴본 모수 $\mu$ 구간추정과 같은 방식으로 할 수 있다.

$\Rightarrow$ 베르누이 분포의 실현된 표본들 총합을 $X$ 라고 하자.

이 $X$ 를 표본 총 갯수 $n$ 으로 나누면, $\frac{X}{n}$ 이 되고 이는 곧 모수 $p$ 에 대한 점 추정치(근삿값) 이자 검정통계량 값이다.

그리고 이 값은 베르누이 분포의 표본평균 값이다. 이 표본평균 값은 중심극한정리에 따라,

기댓값이 $p$, 분산이 $\frac{p(1-p)}{n}$ 인 정규분포 $N(p, \frac{p(1-p)}{n})$에 근사한다.

$\frac{X}{n}$ 을 표준화 시키면 $N(0,1)$ 표준정규분포를 근사적으로 따를 것이다.

$\Rightarrow \frac{\frac{X}{n} - p}{\sqrt{\frac{p(1-p)}{n}}} \sim N(0,1)$

이걸 이용해서 모비율 $p$ 에 대한 95% 근사적 신뢰구간을 구하면

$P(-Z_{\alpha/2} \leq \frac{\frac{X}{n} - p}{\sqrt{\frac{p(1-p)}{n}}} \leq +Z_{\alpha/2}) \simeq 0.95$

$\frac{X}{n}$ 의 표준편차 $\sqrt{\frac{p(1-p)}{n}}$ 에서 $p$ 값을 모른다.

앞에서 대표본을 가정했으므로, $p$를 $\hat{p} = \frac{X}{n}$ 로 대체할 수 있다.

최종으로 $p$ 95% 근사적 신뢰구간을 구하면 아래와 같다.

$P(\frac{X}{n} -Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq p \leq \frac{X}{n}+Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}) \simeq 0.95$

소표본(표분 수 25 이하) & 모집단 정규성 가정 만족 할 때 모수 $\mu$ 구간추정

실현된 표본들이 정규분포에서 나온 표본들이면, 그 표본평균은 정확하게 정규분포 따른다.

$\bar{X} \sim N(\mu, \sigma^{2})$

대표본 일 때는 위 $\bar{X}$ 를 모르는 $\sigma$ 대신 표본표준편차 $s$ 써서 표준화 하면 $\bar{X}$ 가 표준정규분포 $N(0,1)$ 을 따랐다.

$\frac{\bar{X}-\mu}{\frac{s}{\sqrt{n}}} \sim N(0,1)$

하지만 소표본 일 때는 $\sigma$ 대신 $s$ 를 써서 표준화 하면, $\bar{X}$ 가 자유도 n-1 인 student-T 분포를 따르게 된다.

$\Rightarrow$ $T = \frac{\bar{X} - \mu}{\frac{s}{\sqrt{n}}} \sim T(n-1)$

T 분포의 자유도가 $n-1$ 인 이유는 T 통계량 값의 자유도가 표본표준편차 $s$ 자유도 $n-1$ 에 의해 $n-1$ 이기 때문이다.
$s = \frac{1}{n-1}\sum{(X_{i}-\bar{X})}^{2}$, $s$를 구하려면 $\bar{X}$ 를 알아야 하기 때문에 $s$의 자유도 $n-1$.
자유도 : $s$ 구하는 데 들어가는 (표본 갯수 $n$) $-$ ($s$ 구할 때 제약조건의 수)

T 분포의 주요 특징 3 가지

0에 대해 좌우대칭
자유도가 커질 수록 표준정규분포 $N(0,1)$ 에 가까이 간다
하지만 어떤 자유도에서도 t 분포 꼬리는 $N(0,1)$ 보다 두껍다.

$\frac{\bar{X}-\mu}{\frac{s}{\sqrt{n}}} \sim t(n-1)$

$P(-t_{\alpha/2} \leq \frac{\bar{X}-\mu}{\frac{s}{\sqrt{n}}} \leq +t_{\alpha/2}) = 0.95$

소표본, 정규분포에서 나온 표본들 일 때. 모수 $\mu$ 에 대한 95% 신뢰구간 :

$P(\bar{X}-t_{\alpha/2}\frac{s}{\sqrt{n}} \leq \mu \leq \bar{X} + t_{\alpha/2}\frac{s}{\sqrt{n}}) = 0.95$

정규분포에서 나온 표본들의 분산모수 $\sigma^{2}$ 추정

1. 분산모수 점 추정치

분산모수 $\sigma^{2}$ 의 점 추정치 : $s^{2}$

$s^{2} = \frac{1}{(n-1)} \sum{(X_{i} - \bar{X})}^{2}$

2. 분산모수 구간추정 (95% 신뢰구간)

위에서 $\sigma^{2}$ 에 대한 점 추정치는 $s^{2}$ 이었다.

이 $s^{2}$ 이 이루는 분포에서 면적이 95% 되는 구간 찾아야 한다.

확률값 구하기 쉽게 $s^{2}$ 를 $W$ 통계량으로 표준화 시키자.

$W = \frac{\sum{(X_{i} - \bar{X})^{2}}}{\sigma^{2}} = \frac{(n-1)s^{2}}{\sigma^{2}}$

이 $W$ 통계량은 카이제곱분포를 따른다.

이 $W$ 통계량은 $\bar{X}$ 를 알아야 구할 수 있다(제약조건). 따라서 자유도가 $n-1$ 이다.

$\Rightarrow$ $s^{2}$ 표준화시킨 $W$ 통계량은 자유도가 $n-1$ 인 카이제곱분포 따른다.

$W \sim \chi^{2}(n-1)$

카이제곱 분포에서 특정 점 오른쪽 면적이 $\alpha$ 이면, 그 점을 $\chi^{2}_{\alpha}$ 로 칭한다.

Screen Shot 2022-01-03 at 23 10 41

[이미지 출처: 부산대학교 통계학과 김충락 교수님의 R을 이용한 통계학개론_05_통계적 추론_2.pdf]

$ P(\chi_{1-\alpha}^{2} \leq \frac{(n-1)s^{2}}{\sigma^{2}} \leq \chi_{\alpha}^{2}) = 1-\alpha $

분산모수 $\sigma^{2}$ 에 대한 $100(1-\alpha)%$ 신뢰구간

$P(\frac{(n-1)s^{2}}{\chi_{\alpha/2}^{2}} \leq \sigma^{2} \leq \frac{(n-1)s^{2}}{\chi_{1-\frac{\alpha}{2}}^{2}}) = 1-\alpha$

표준편차 모수 $\sigma$ 에 대한 $100(1-\alpha)%$ 신뢰구간

$P(s\sqrt{\frac{(n-1)}{\chi_{\alpha/2}^{2}}} \leq \sigma \leq s\sqrt{\frac{(n-1)}{\chi_{1-\frac{\alpha}{2}}^{2}}}) = 1 - \alpha$