다변수 확률변수
- 벡터를 표본으로 내놓는 확률변수
결합확률분포함수는 기본적으로 다변수함수다 (입력변수 여러개-벡터 / 출력변수 1개-스칼라)
따라서 결합확률분포함수는 3d 서피스플롯 등 3차원 그래프로 나타낼 수 있다.
예컨대 P_XY(x,y) 라는 결합확률질량함수가 있다. 이 함수는 2차원 벡터 $[x, y]$ 의 확률질량값을 할당하는 함수다.
- 결합확률분포함수 p(x,y) 히트맵으로 나타내기
1 2 3 4
sns.heatmap(pmf, cmap=mpl.cm.bone_r, annot=True, xticklabels=grades,yticklabels=grades) plt.title('결합확률질량함수 p(x,y)- 히트맵') plt.tight_layout() plt.show()
이산확률변수 벡터 : [표본공간이 모두 같은] 이산확률변숫값들로 구성된 벡터
- 이산확률변수들의 표본공간이 모두 같아야 한다
예) 주사위 던져서 나오는 수의 확률변수 X,Y
둘 다 표본공간이 {1,2,3,4,5,6} 으로 같다.
Z = [x, y] Z는 이산확률변수 벡터
결합확률질량함수
- 이산확률변숫값들로 구성된 벡터(이산확률변수 벡터)에 할당된 확률질량값 정의하는 함수다.
주변확률질량함수
- 결합확률질량함수와 전체확률의 법칙 이용해서 구하는, 개별확률변수의 확률질량함수다.
조건부 확률질량함수
- X,Y 결합확률질량함수에서, 확률변숫값 하나를 고정시켜놓고 나머지 확률변수 변화시키면서 조건부 확률 구한 것.
- 조건부확률. 확률질량함수
- 결합확률질량함수(3차원 그래프) 자른 단면 / 조건이 되는 확률변수의 주변확률질량함숫값
- 조건부 확률질량함수 모양은 결합확률질량함수 자른 단면과 ‘비슷’하다
연속확률변수 벡터 : 연속확률변숫값들로 구성된 벡터
결합누적확률분포함수
- 두 특수구간 교집합의 확률 할당하는 함수 P(X < x, Y < y)
결합확률밀도함수
- 연속확률변수 벡터의 확률밀도값 할당하는 함수 (2차원함수, 다변수함수, 3차원 그래프)
결합확률밀도함수 이중적분하면 2차원 함수 부피 구하는 것과 같다.
결합누적확률분포함수를 편미분 두번 해서 구한다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
# 결합확률밀도함수 를 그려보자.
# 다변수 정규분포
mu = [70,170]
cov = [[150,140],[140,300]]
rv = sp.stats.multivariate_normal(mu, cov) # 다변수 정규분포 객체
xx = np.linspace(20,120,100)
yy = np.linspace(100,250,100)
X,Y = np.meshgrid(xx,yy) # 10,000개의 그리드포인트
grid_point = np.dstack([X,Y]) # 좌표점 # 그리드포인트
Z = rv.pdf(grid_point)
ax = plt.gca(projection='3d')
ax.plot_surface(X,Y,Z, color='r',linewidth=0.5)
plt.title('다변수정규분포의 결합확률밀도함수')
plt.xlabel('$x$')
plt.ylabel('$y$')
#ax.view_init(80,100)
plt.show()
주변확률밀도함수
- 결합확률밀도함수에서 구한 개별 확률변수 확률밀도함수
- 결합확률밀도함수를 하나의 확률변수에 대해 전구간 적분해서 날리고, 1개 확률변수의 확률밀도함수 구한 것.
- 1차원 함수
$p_{x}{(x)}$
$p_{y}{(y)}$
조건부확률밀도함수
- 결합확률밀도함수 단면 / 조건이 되는 확률변수의 주변확률밀도함숫값
- 조건부 확률. 확률밀도함수
- 1차원 단변수함수다.
- 결합확률밀도함수에서 연속확률변수 하나를 고정시켜놓고, $x$ 값 변화시켜 가며 구한 확률. 을 조건이 되는 확률변수의 주변확률밀도함숫값으로 나눈 것.
정리
- 결합~~ 분포함수는 말 그대로 결합사건 확률 할당하는 함수다.
- 주변~~ 분포함수는 개별 확률변수의 확률분포함수 구한 것이다. (결합~~에서 떼어낸다)
- 조건부~~ 분포함수는 말 그대로 조건부확률 할당하는 함수다. (확률변숫값 하나를 특정값에 고정했을 때의 조건부확률)
확률변수의 독립
확률변숫값 변화가 조건부 확률분포 변화시키면. 두 확률변수는 서로 ‘상관관계가 있다’고 한다.
확률변수가 상관관계가 없으면 서로 ‘독립’이다.
(사건 : 독립 <-> 종속)
사건의 독립처럼 $P(A,B) = P(A) P(B)$ 성립한다.
- 두 확률변수 독립 이면, 조건부확률분포 = 주변확률분포 다.
조건을 걸든 안 걸든, 같단 소리다.
독립확률변수의 기댓값
- $E[X Y] = E[X]E[Y]$
- $E[(X-mu )(Y-mu )] = 0$
성립
–> ‘다중적분은 적분을 연속한 것과 같다’ 는 푸비니 정리 이용해서 첫번째 성질 증명 가능
–> 증명된 첫번째 성질 이용하면 두 번째 성질 증명 가능
- 두 확률변수가 독립이면 아래 성질 성립한다.
$V[X + Y] = V[X] + V[Y]$
증명)
1
2
3
4
5
6
7
V[X+Y] = E[(X-mu_X)^2]
--> E[(X+Y-(mu_X+mu_Y)^2)]
--> E[(X-mu_X)+(Y-mu_Y)^2]
--> E[(X-mu_X)^2+(Y-mu_Y)^2+2(X-mu_X)(Y-mu_Y)]
--> V[X]+V[Y]+2E[(X-mu_X)(Y-mu_Y)]
# 두 확률변수 X,Y 독립일 때 2E[(X-mu_X)(Y-mu_Y)]가 0 이므로, V[X]+V[Y]만 남는다.
참고
- enumerate()함수
반복문 돌 때, iterator의 인덱스와 컬렉션 원소를 tuple형태로 묶어서 반환한다.