어떤 이벤트가 두 개 이상의 확률변수에 의해서 결정될 때, 이벤트가 일어날 확률은 확률변수들 간의 결합 분포(joint distribution)에 의해 결정됩니다.
통계학적으로 널리 쓰이고 가장 중요한 정규분포의 결합분포에 대해서 이야기해보죠. 확률변수가 3개 이상인 경우는 좀 더 복잡하므로, 우선 2개일 때를 살펴보겠습니다.
정규분포를 따르는 2개의 변수 $X_1,X_2$의 평균이 각각 $\mu_1, \mu_2$, 표준편차가 $\sigma_1, \sigma_2$라 해봅시다. 보통의 경우 $X, Y$는 상관관계가 있습니다. 이 두 변수의 상관계수를 $\rho$라 가정합시다.
이 상황을 벡터로 쓰면, 확률벡터 변수 $\mathbf{X}=(X_1,X_2)$의 평균 $\mathbf{\mu}$와 분산 $\Sigma$가 각각
$$ \mathbf{\mu} = (\mu_1, \mu_2)~~,~~ \Sigma =\begin{pmatrix} \sigma_1^2 & \rho\sigma_1\sigma_2 \\ \rho\sigma_1\sigma_2 & \sigma_2^2 \end{pmatrix}$$
입니다. 분산 $\Sigma$는 다름 아닌, 변수 $X_1, X_2$의 공분산이죠.
(공분산에 대해서는 [수학의 재미/행렬 이론] - 공분산과 공분산 행렬을 참고하시면 됩니다.)
이변량 정규분포의 pdf(probability density function)
먼저 이변량 정규분포의 pdf는 아래와 같이 생겼습니다. pdf 함수를 $f_2$ 라 한다면, 벡터 $\mathbf{x}=(x_1,x_2)$ 에 대해,
$$ f_k(\mathbf{x}) = (2\pi)^{-k/2} \det(\Sigma)^{-1/2} \exp\left( -\frac12 (\mathbf{x}-\mathbf{\mu})^t\Sigma^{-1}(\mathbf{x}-\mathbf{\mu})\right) ~,~ k=2 \tag{1}$$
식(1)에서 굳이 $k=2$로 쓴 이유는 식(1)의 형식 자체가 삼변량, 사변량 등등 다변량 정규분포를 설명하는데 똑같이 등장하는 식이어서 그렇습니다. 일반적으로 $k$ 변량 정규분포의 pdf는 식(1)과 같이 생겼습니다. 그 대신 평균과 공분산인 $\mathbf{x}, \Sigma$의 사이즈가 차원에 맞춰서 달라지겠죠.
어쨌든 계속 변수 2개인 상황을 진행해 봅시다. 식(1)을 풀어쓰면
$$f_2(x_1, x_2) = {\textstyle{\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}} \exp\left\{ -\frac{1}{2(1-\rho^2)} \left[ \left( \frac{x_1-\mu_1}{\sigma_1} \right)^2 + \left( \frac{x_2-\mu_2}{\sigma_2} \right)^2
-2\rho \frac{(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2} \right]\right\}}\tag{2}$$
간단하게 두 가지 사실을 관찰해 보겠습니다.
$X_1,X_2$ 가 독립이라면?
$X_1,X_2$ 가 독립이라면 상관관계가 없습니다. 즉, $\rho=0$인 상황이죠. 이 때의 pdf 함수는 다음과 같이 분리됩니다.
$$
\begin{align}
f_2(x_1, x_2) &= \frac{1}{2\pi\sigma_1\sigma_2} \exp\left\{ -\frac{1}{2} \left[ \left( \frac{x_1-\mu_1}{\sigma_1} \right)^2 + \left( \frac{x_2-\mu_2}{\sigma_2} \right)^2 \right]\right\}\\
& = \frac{1}{\sqrt{2\pi}\sigma_1} \exp \left[ -\frac12 \left( \frac{x_1-\mu_1}{\sigma_1} \right)^2 \right] \cdot
\frac{1}{\sqrt{2\pi}\sigma_2} \exp \left[ -\frac12 \left( \frac{x_2-\mu_2}{\sigma_2} \right)^2 \right]\\
& = f_1(x_1) \cdot f_1(x_2)
\end{align}
$$
가 성립합니다. 여기서 $f_1$은 정규분포의 pdf입니다. ($f_1$은 정규분포의 평균과 분산에 따라 모양이 달라지지만, 편의상 이렇게 썼습니다.)
즉, 2변량 정규분포의 pdf가 1변량 정규분포의 곱으로 쪼개질 수가 있죠. 이것이 바로 독립이라는 개념의 중요한 성질 중 하나입니다.
이변량 표준 정규분포의 경우
이 때는 식이 좀 간단해집니다. $\mu_1=\mu_2=0$이고 $\sigma_1 =\sigma_2=1$인 상황이므로
$$f_2(x_1, x_2) =
\frac{1}{2\pi\sqrt{1-\rho^2}}
\exp\left( -\frac{x_1^2 -2\rho x_1x_2 +x_2^2}{2(1-\rho^2)} \right) $$
와 같이 간단해(?)집니다.
결합확률밀도함수(joint pdf)의 의미
확률변수 $X_1,X_2$ 가 결합확률밀도 $f_2$를 가진다는 의미는 이렇습니다.
점 $(x_1,x_2)$ 근방의 아주 조그마한 영역 $ \{ x_1\leq X_1 \leq x_1+dx_1 , x_2 \leq X_2 \leq x_2+dx_2 \}$ 의 확률이
$$ \mathbb{P}( x_1\leq X_1 \leq x_1+dx_1 ~,~ x_2 \leq X_2 \leq x_2+dx_2 ) = f_2(x_1,x_2) dx_1 dx_2 $$
라는 이야기입니다.
이러한 개념을 이용하여 결합확률밀도의 적분 형태, 즉, 결합 누적분포함수(cumulative distribution function)을 정의할 수 있습니다.
이변량 정규분포의 누적분포함수(cdf)
이변량 정규분포 $(X_1, X_2)$의 누적분포 함수 $F_2(a_1, a_2)$는 아래처럼 정의됩니다.
$$
\begin{align}
F_2(a_1, a_2) & = \mathbb{P}(X_1\leq a_1, X_2 \leq a_2) \\
& = \int_{-\infty}^{a_1} \int_{-\infty}^{a_2} f_2(x_1, x_2) dx_1 dx_2
\end{align}
$$
그림으로 보면 이렇습니다.
1변수 표준 정규분포의 pdf , cdf 와 마찬가지로, 이변량 표준정규분포의 pdf와 cdf 함수 모두 python 함수로 제공되고 있습니다. 다음 글에서는 python 으로 이변량 표준정규분포의 pdf, cdf를 구하는 방법을 알아보겠습니다.
'수학의 재미 > 확률분포' 카테고리의 다른 글
이변량 정규분포: python code (0) | 2022.10.25 |
---|---|
상관관계가 있는 두개의 표준정규분포 난수 구하기 (0) | 2022.09.16 |
확률측도를 바꿉시다: Girsanov Theorem (1) | 2022.06.28 |
술먹고 걷기(Random Walk) #2: 동서남북 내키는대로~ (0) | 2022.06.25 |
술먹고 걷기(Random Walk) #1: 길따라 걷기 (0) | 2022.06.25 |
댓글