어떤 이벤트가 두 개 이상의 확률변수에 의해서 결정될 때, 이벤트가 일어날 확률은 확률변수들 간의 결합 분포(joint distribution)에 의해 결정됩니다.
통계학적으로 널리 쓰이고 가장 중요한 정규분포의 결합분포에 대해서 이야기해보죠. 확률변수가 3개 이상인 경우는 좀 더 복잡하므로, 우선 2개일 때를 살펴보겠습니다.
정규분포를 따르는 2개의 변수 X1,X2의 평균이 각각 μ1,μ2, 표준편차가 σ1,σ2라 해봅시다. 보통의 경우 X,Y는 상관관계가 있습니다. 이 두 변수의 상관계수를 ρ라 가정합시다.
이 상황을 벡터로 쓰면, 확률벡터 변수 X=(X1,X2)의 평균 μ와 분산 Σ가 각각
μ=(μ1,μ2) , Σ=(σ21ρσ1σ2ρσ1σ2σ22)
입니다. 분산 Σ는 다름 아닌, 변수 X1,X2의 공분산이죠.
(공분산에 대해서는 [수학의 재미/행렬 이론] - 공분산과 공분산 행렬을 참고하시면 됩니다.)
이변량 정규분포의 pdf(probability density function)
먼저 이변량 정규분포의 pdf는 아래와 같이 생겼습니다. pdf 함수를 f2 라 한다면, 벡터 x=(x1,x2) 에 대해,
fk(x)=(2π)−k/2det
식(1)에서 굳이 k=2로 쓴 이유는 식(1)의 형식 자체가 삼변량, 사변량 등등 다변량 정규분포를 설명하는데 똑같이 등장하는 식이어서 그렇습니다. 일반적으로 k 변량 정규분포의 pdf는 식(1)과 같이 생겼습니다. 그 대신 평균과 공분산인 \mathbf{x}, \Sigma의 사이즈가 차원에 맞춰서 달라지겠죠.
어쨌든 계속 변수 2개인 상황을 진행해 봅시다. 식(1)을 풀어쓰면
f_2(x_1, x_2) = {\textstyle{\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}} \exp\left\{ -\frac{1}{2(1-\rho^2)} \left[ \left( \frac{x_1-\mu_1}{\sigma_1} \right)^2 + \left( \frac{x_2-\mu_2}{\sigma_2} \right)^2 -2\rho \frac{(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2} \right]\right\}}\tag{2}
간단하게 두 가지 사실을 관찰해 보겠습니다.
X_1,X_2 가 독립이라면?
X_1,X_2 가 독립이라면 상관관계가 없습니다. 즉, \rho=0인 상황이죠. 이 때의 pdf 함수는 다음과 같이 분리됩니다.
\begin{align} f_2(x_1, x_2) &= \frac{1}{2\pi\sigma_1\sigma_2} \exp\left\{ -\frac{1}{2} \left[ \left( \frac{x_1-\mu_1}{\sigma_1} \right)^2 + \left( \frac{x_2-\mu_2}{\sigma_2} \right)^2 \right]\right\}\\ & = \frac{1}{\sqrt{2\pi}\sigma_1} \exp \left[ -\frac12 \left( \frac{x_1-\mu_1}{\sigma_1} \right)^2 \right] \cdot \frac{1}{\sqrt{2\pi}\sigma_2} \exp \left[ -\frac12 \left( \frac{x_2-\mu_2}{\sigma_2} \right)^2 \right]\\ & = f_1(x_1) \cdot f_1(x_2) \end{align}
가 성립합니다. 여기서 f_1은 정규분포의 pdf입니다. (f_1은 정규분포의 평균과 분산에 따라 모양이 달라지지만, 편의상 이렇게 썼습니다.)
즉, 2변량 정규분포의 pdf가 1변량 정규분포의 곱으로 쪼개질 수가 있죠. 이것이 바로 독립이라는 개념의 중요한 성질 중 하나입니다.
이변량 표준 정규분포의 경우
이 때는 식이 좀 간단해집니다. \mu_1=\mu_2=0이고 \sigma_1 =\sigma_2=1인 상황이므로
f_2(x_1, x_2) = \frac{1}{2\pi\sqrt{1-\rho^2}} \exp\left( -\frac{x_1^2 -2\rho x_1x_2 +x_2^2}{2(1-\rho^2)} \right)
와 같이 간단해(?)집니다.
결합확률밀도함수(joint pdf)의 의미
확률변수 X_1,X_2 가 결합확률밀도 f_2를 가진다는 의미는 이렇습니다.
점 (x_1,x_2) 근방의 아주 조그마한 영역 \{ x_1\leq X_1 \leq x_1+dx_1 , x_2 \leq X_2 \leq x_2+dx_2 \} 의 확률이
\mathbb{P}( x_1\leq X_1 \leq x_1+dx_1 ~,~ x_2 \leq X_2 \leq x_2+dx_2 ) = f_2(x_1,x_2) dx_1 dx_2
라는 이야기입니다.

이러한 개념을 이용하여 결합확률밀도의 적분 형태, 즉, 결합 누적분포함수(cumulative distribution function)을 정의할 수 있습니다.
이변량 정규분포의 누적분포함수(cdf)
이변량 정규분포 (X_1, X_2)의 누적분포 함수 F_2(a_1, a_2)는 아래처럼 정의됩니다.
\begin{align} F_2(a_1, a_2) & = \mathbb{P}(X_1\leq a_1, X_2 \leq a_2) \\ & = \int_{-\infty}^{a_1} \int_{-\infty}^{a_2} f_2(x_1, x_2) dx_1 dx_2 \end{align}
그림으로 보면 이렇습니다.

1변수 표준 정규분포의 pdf , cdf 와 마찬가지로, 이변량 표준정규분포의 pdf와 cdf 함수 모두 python 함수로 제공되고 있습니다. 다음 글에서는 python 으로 이변량 표준정규분포의 pdf, cdf를 구하는 방법을 알아보겠습니다.
'수학의 재미 > 확률분포' 카테고리의 다른 글
이변량 정규분포: python code (0) | 2022.10.25 |
---|---|
상관관계가 있는 두개의 표준정규분포 난수 구하기 (0) | 2022.09.16 |
확률측도를 바꿉시다: Girsanov Theorem (1) | 2022.06.28 |
술먹고 걷기(Random Walk) #2: 동서남북 내키는대로~ (0) | 2022.06.25 |
술먹고 걷기(Random Walk) #1: 길따라 걷기 (0) | 2022.06.25 |
댓글