다변수 확률변수

벡터를 표본으로 내놓는 확률변수

결합확률분포함수는 기본적으로 다변수함수다 (입력변수 여러개-벡터 / 출력변수 1개-스칼라)

따라서 결합확률분포함수는 3d 서피스플롯 등 3차원 그래프로 나타낼 수 있다.

예컨대 P_XY(x,y) 라는 결합확률질량함수가 있다. 이 함수는 2차원 벡터 $[x, y]$ 의 확률질량값을 할당하는 함수다.

결합확률분포함수 p(x,y) 히트맵으로 나타내기

  
sns.heatmap(pmf, cmap=mpl.cm.bone_r, annot=True, xticklabels=grades,yticklabels=grades)
plt.title('결합확률질량함수 p(x,y)- 히트맵')
plt.tight_layout()
plt.show()

이산확률변수 벡터 : [표본공간이 모두 같은] 이산확률변숫값들로 구성된 벡터

이산확률변수들의 표본공간이 모두 같아야 한다

예) 주사위 던져서 나오는 수의 확률변수 X,Y

둘 다 표본공간이 {1,2,3,4,5,6} 으로 같다.

Z = [x, y] Z는 이산확률변수 벡터

결합확률질량함수

이산확률변숫값들로 구성된 벡터(이산확률변수 벡터)에 할당된 확률질량값 정의하는 함수다.

주변확률질량함수

결합확률질량함수와 전체확률의 법칙 이용해서 구하는, 개별확률변수의 확률질량함수다.

조건부 확률질량함수

X,Y 결합확률질량함수에서, 확률변숫값 하나를 고정시켜놓고 나머지 확률변수 변화시키면서 조건부 확률 구한 것.
조건부확률. 확률질량함수
결합확률질량함수(3차원 그래프) 자른 단면 / 조건이 되는 확률변수의 주변확률질량함숫값
조건부 확률질량함수 모양은 결합확률질량함수 자른 단면과 ‘비슷’하다

연속확률변수 벡터 : 연속확률변숫값들로 구성된 벡터

결합누적확률분포함수

두 특수구간 교집합의 확률 할당하는 함수 P(X < x, Y < y)

결합확률밀도함수

연속확률변수 벡터의 확률밀도값 할당하는 함수 (2차원함수, 다변수함수, 3차원 그래프)

결합확률밀도함수 이중적분하면 2차원 함수 부피 구하는 것과 같다.

결합누적확률분포함수를 편미분 두번 해서 구한다.

  
# 결합확률밀도함수 를 그려보자. 
# 다변수 정규분포 
mu = [70,170]
cov = [[150,140],[140,300]]

rv = sp.stats.multivariate_normal(mu, cov) # 다변수 정규분포 객체

xx = np.linspace(20,120,100)
yy = np.linspace(100,250,100)

X,Y = np.meshgrid(xx,yy) # 10,000개의 그리드포인트 
grid_point = np.dstack([X,Y]) # 좌표점 # 그리드포인트
Z = rv.pdf(grid_point)

ax = plt.gca(projection='3d')
ax.plot_surface(X,Y,Z, color='r',linewidth=0.5)
plt.title('다변수정규분포의 결합확률밀도함수')
plt.xlabel('$x$')
plt.ylabel('$y$')
#ax.view_init(80,100)
plt.show()

Screen Shot 2021-06-28 at 17 41 02

주변확률밀도함수

결합확률밀도함수에서 구한 개별 확률변수 확률밀도함수
결합확률밀도함수를 하나의 확률변수에 대해 전구간 적분해서 날리고, 1개 확률변수의 확률밀도함수 구한 것.
1차원 함수

$p_{x}{(x)}$

$p_{y}{(y)}$

조건부확률밀도함수

결합확률밀도함수 단면 / 조건이 되는 확률변수의 주변확률밀도함숫값
조건부 확률. 확률밀도함수
1차원 단변수함수다.
결합확률밀도함수에서 연속확률변수 하나를 고정시켜놓고, $x$ 값 변화시켜 가며 구한 확률. 을 조건이 되는 확률변수의 주변확률밀도함숫값으로 나눈 것.

정리

결합~~ 분포함수는 말 그대로 결합사건 확률 할당하는 함수다.
주변~~ 분포함수는 개별 확률변수의 확률분포함수 구한 것이다. (결합~~에서 떼어낸다)
조건부~~ 분포함수는 말 그대로 조건부확률 할당하는 함수다. (확률변숫값 하나를 특정값에 고정했을 때의 조건부확률)

확률변수의 독립

확률변숫값 변화가 조건부 확률분포 변화시키면. 두 확률변수는 서로 ‘상관관계가 있다’고 한다.

확률변수가 상관관계가 없으면 서로 ‘독립’이다.

(사건 : 독립 <-> 종속)

사건의 독립처럼 $P(A,B) = P(A) P(B)$ 성립한다.

두 확률변수 독립 이면, 조건부확률분포 = 주변확률분포 다.

조건을 걸든 안 걸든, 같단 소리다.

독립확률변수의 기댓값

$E[X Y] = E[X]E[Y]$
$E[(X-mu )(Y-mu )] = 0$

성립

–> ‘다중적분은 적분을 연속한 것과 같다’ 는 푸비니 정리 이용해서 첫번째 성질 증명 가능

–> 증명된 첫번째 성질 이용하면 두 번째 성질 증명 가능

두 확률변수가 독립이면 아래 성질 성립한다.

$V[X + Y] = V[X] + V[Y]$

증명)

  
V[X+Y] = E[(X-mu_X)^2]

--> E[(X+Y-(mu_X+mu_Y)^2)]
--> E[(X-mu_X)+(Y-mu_Y)^2]
--> E[(X-mu_X)^2+(Y-mu_Y)^2+2(X-mu_X)(Y-mu_Y)]
--> V[X]+V[Y]+2E[(X-mu_X)(Y-mu_Y)]
# 두 확률변수 X,Y 독립일 때 2E[(X-mu_X)(Y-mu_Y)]가 0 이므로, V[X]+V[Y]만 남는다.

참고

enumerate()함수

반복문 돌 때, iterator의 인덱스와 컬렉션 원소를 tuple형태로 묶어서 반환한다.

[수학/확률과 통계] 확률변수벡터, 결합.조건부.주변확률분포, 확률변수 독립