표본 공분산

일반적인 확률변수는 시뮬레이션(=시행) 한 번 할 때 마다 스칼라 표본 하나씩을 내놓는다.

이 표본은 확률적 데이터로, 확률변수의 확률분포에 따라 현실세계로 튕겨져 나온 ‘데이터’다.

만약 스칼라 표본을 내놓는 이러한 확률변수가 $X,Y$ 둘이 있다고 가정해보자.

표본 공분산은 $x$ 표본과 $y$ 표본이 동시에 $x$ 평균과 $y$ 평균에서 떨어진 정도의 평균으로, 2차원 평면에서 나타낼 경우 축과 점 사이 거리를 선으로 연결한

여러 크고 작은 사각형 면적의 평균이 된다.

확률변수 벡터들의 표본공분산

그렇다면 확률변수 벡터를 표본으로 갖는 다변수 확률변수의 표본 공분산은 어떨까?

  
X = pd.DataFrame(np.array(
    [[x11,x21,x31],
    [x12, x22, x32],
    [x13, x23, x33]]
    ),columns=['X','Y','Z'])

위와 같은 행렬이 있다고 가정하자.

행렬의 각 행은 다변수확률변수 표본들이다. 표본 하나가 곧 벡터 하나다.

다변수 확률변수에서 시뮬레이션을 한 번 하는 것은 단변수 확률변수 $X,Y,Z$ 에서 표본 하나씩 총 표본 3개를 한번에 꺼내오는 것과 같다.

다변수 확률변수의 표본인 확률변수 벡터는 이 값들을 ‘모아놓은 것’이다.

이렇게 생각한다면, 다변수 확률변수 표본 1개는 단변수 확률변수 표본 3개와 같다.

다변수 확률변수에 대해 시뮬레이션을 3번 하면 표본 추출한 결과를 위 행렬처럼 나타낼 수 있다.

각 행에 담긴 스칼라값 3개가 곧 1번 추출해서 나온 ‘표본들’이다.

따라서 이 표본들의 표본 공분산을 구하고 싶다면, columns에 있는 단변수 확률변수들 조합 $(X,Y),(Y,Z),(X,Z)$ 의 표본공분산을 모두 구하면 된다.

표본공분산 행렬 은 이 결과를 한번에 모아서 행렬로 나타낸 것이다.

위 예시 행렬 기준, 다변수 확률변수 표본 1개는 곧 단변수 확률변수 표본 3개와 같다.

곧, 단변수 확률변수 3개에서 표본 하나씩을 동시에 추출한 것이다.

$\Rightarrow$ 다변수확률변수 1개는 단변수 확률변수 3개인 것과 같다.

$V = [X1, X2, X3]$