Home [수학/확률과 통계] 포아송 분포, 이항분포의 정규근사, 연속수정
포스트
취소

[수학/확률과 통계] 포아송 분포, 이항분포의 정규근사, 연속수정

아래는 부산대학교 통계학과 김충락 교수님의 ‘R을 활용한 통계학 개론’ 수업을 듣고,

학습내용을 제 언어로 다시 정리한 글 입니다.


포아송 분포

정의 :

단위시간. 단위공간 에서 발생하는 사건 수 들의 이산확률분포 를 ‘포아송분포’라고 한다.

특징 :

기댓값 모수와 분산 모수 값이 같다.


포아송 분포 따르기 위한 조건

  1. 독립성 : 서로 다른 단위시간/공간에서 발생하는 사건 수는 서로 독립이다. (n이 무한히 클 때, 각 이항분포 표본은 독립이다)
  2. 단일성 : 1개 단위시간/공간에서 동시에 2개 이상 사건 발생할 확률은 0에 가깝다.
  3. 등발성 : 기댓값 m 은 모든 단위시간. 단위공간에서 일정하다.

이항분포와 포아송분포 사이 관계

이항분포에서 전체 시행 횟수 $n$이 매우 커지고,

베르누이 시행에서 1 나올 확률 $p$가 매우 작아질 때,

이항분포는 기댓값과 분산이 $np$ 로 같은 포아송분포에 근사한다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# 이항분포에서, n이 매우 커지고 p가 매우 작아지면 이항분포가 포아송분포에 근사한다.
n = 100000
p = 0.005
# 이항분포 
rv = sp.stats.binom(n,p)
xx = np.arange(420, 580)
pmf = rv.pmf(xx)

plt.plot(xx, pmf, 'mo-')
print(f'이항분포 기댓값 : {n*p}')
print(f'이항분포 분산 : {n*p*(1-p)}')
print(f'포아송분포 기댓값과 분산 np : {n*p}')
plt.title('n이 매우 커지고, p가 매우 작아지면 이항분포는 포아송분포에 다가간다')

plt.show()

Screen Shot 2021-10-01 at 16 04 09


  • 한편, 포아송분포는 $np$ 값이 커질수록 오른쪽으로 이동하고, 분산 정도가 커진다.

  • 또한 $np$가 커질 수록 분포가 좌우대칭에 가까워진다.

1
2
3
4
5
6
7
8
9
10
11
12
# np(기댓값, 분산값)가 커질 때, 포아송분포 변화
n = [300,500,1000,2000,5000]
colors = ['bo-','ro-','go-','ko-','mo-']
p = 0.005
xx = np.arange(-10,100)
for n,colors in zip(n, colors) : 
    rv = sp.stats.binom(n,p)
    plt.plot(xx, rv.pmf(xx), colors, label=f'np={n*p}')
plt.xlim(0, 40)
plt.title('$np$크기에 따른 포아송분포 확률질량함수')
plt.legend()
plt.show()

Screen Shot 2021-10-01 at 16 07 34


이항분포의 정규근사

정의 :

이항분포에서 n이 매우 크고,

p가 0과 1 사이 적당한 값이면(너무 작지도. 크지도 않은)

이항분포는 기댓값이 $np$, 표준편차가 $\sqrt{np(1-p)}$ 인 정규분포에 근사시킬 수 있다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
# n이 매우 클 때, 이항분포 정규분포에 근사시키기 
n = 10000
p = 0.6
# 이항분포
rv = sp.stats.binom(n,p)
xx = np.arange(5700,6300)
pmf = rv.pmf(xx)
plt.plot(xx, pmf, 'co-')
#plt.xlim(3200, 3800)

mu = n*p
std = np.sqrt((n*p)*(1-p))
# 이항분포가 근사할 정규분포 
rv2 = sp.stats.norm(mu, std)
pdf = rv2.pdf(xx)
plt.plot(xx, pdf, 'k-')

plt.title('n=10000 , p=0.6 일 때 이항분포 정규근사')
plt.show()

Screen Shot 2021-10-01 at 16 28 11

검정색 선이 기댓값이 $np$, 분산이 $np(1-p)$ 인 정규분포 나타낸 선이다.

무수히 이어진 하늘색 점들이 $n=10000, p=0.6$ 일 때 이항분포 나타낸 것이다.

보다시피 점들과 선이 거의(하늘색 부분은 점들이니까) 일치하는 것을 볼 수 있었다.


연속수정 (Continuity Correction)

이항분포를 정규근사해서 확률을 구할 때, 이항분포 값들에 대해 ‘연속수정’을 한다.

이항분포는 이산확률분포, 정규분포는 연속확률분포이다.

이항분포를 정규근사 시켜서 확률값을 구하려면, 이산적 구간(불연속적)을 정규분포에 맞게 조정해야 한다.

그래서 이항확률변숫값에 정규확률변숫값을 대응시킬 때. 이항확률변숫값에 0.5씩 더하거나 뺀 값을 정규확률변숫값으로 대응시키는데, 이걸 연속 수정이라 한다.

이항분포 정규근사 시켜서 확률값 구할 때는 이 연속수정 된 정규확률변숫값들로 확률값 구하면 된다.

정리)

$\Rightarrow$ ‘연속수정’은 이항분포를 정규근사시켜 확률값을 구할 때,

확률값 구하려는 구간 경계의 각 이항분포 값들을 $0.5$ 만큼 더하거나 $0.5$ 만큼 빼서 변형하는 걸 말한다.


예를 들어, 이항분포를 정규근사 시킨 다음, 279 이하 표본들이 실현될 확률을 구하고 싶다.

$P(X \leq 279)$

표준화 해서 위 구간의 확률을 구할 건데, 이때 이산확률변숫값인 279를 ‘연속수정’ 해서 279.5로 바꾼다.

$P(Z \leq \frac{279.5-\mu}{\sigma})$

그 후 표준정규분포 표를 이용해서 위 구간의 확률을 구한다.

또는

정규근사 시킨 위 이항분포에서, 316 이상 표본들이 실현될 확률을 구하고 싶다.

$P(316 \leq X)$

표준화 하면,

$P(\frac{315.5-\mu}{\sigma} \leq Z)$

구간이 이렇게 된다. 이런 느낌인 것이다.

만약 $P(160 \leq X \leq 180)$ 을 구하고자 하면,

표준정규분포에서 $P(\frac{155.5-\mu}{\sigma} \leq Z \leq \frac{180.5-\mu}{\sigma})$ 를 구하면 된다.

[수학/확률과 통계] 결합확률, 조건부확률, 베이즈정리, pgmpy, 몬티 홀 문제

[수학/확률과 통계] 신뢰구간, 신뢰수준, 표본오차, 표준오차