이변량 정규분포(bivariate normal distribution)

728x90

어떤 이벤트가 두 개 이상의 확률변수에 의해서 결정될 때, 이벤트가 일어날 확률은 확률변수들 간의 결합 분포(joint distribution)에 의해 결정됩니다.

통계학적으로 널리 쓰이고 가장 중요한 정규분포의 결합분포에 대해서 이야기해보죠. 확률변수가 3개 이상인 경우는 좀 더 복잡하므로, 우선 2개일 때를 살펴보겠습니다.

정규분포를 따르는 2개의 변수 $X_1,X_2$ 의 평균이 각각 $\mu_1, \mu_2$ , 표준편차가 $\sigma_1, \sigma_2$ 라 해봅시다. 보통의 경우 $X, Y$ 는 상관관계가 있습니다. 이 두 변수의 상관계수를 $\rho$ 라 가정합시다.

이 상황을 벡터로 쓰면, 확률벡터 변수 $\mathbf{X}=(X_1,X_2)$ 의 평균 $\mathbf{\mu}$ 와 분산 $\Sigma$ 가 각각

$\mathbf{\mu} = (\mu_1, \mu_2)~~,~~ \Sigma =\begin{pmatrix} \sigma_1^2 & \rho\sigma_1\sigma_2 \\ \rho\sigma_1\sigma_2 & \sigma_2^2 \end{pmatrix}$

입니다. 분산 $\Sigma$ 는 다름 아닌, 변수 $X_1, X_2$ 의 공분산이죠.

(공분산에 대해서는 [수학의 재미/행렬 이론] - 공분산과 공분산 행렬을 참고하시면 됩니다.)

이변량 정규분포의 pdf(probability density function)

먼저 이변량 정규분포의 pdf는 아래와 같이 생겼습니다. pdf 함수를 $f_2$ 라 한다면, 벡터 $\mathbf{x}=(x_1,x_2)$ 에 대해,

$f_k(\mathbf{x}) = (2\pi)^{-k/2} \det(\Sigma)^{-1/2} \exp\left( -\frac12 (\mathbf{x}-\mathbf{\mu})^t\Sigma^{-1}(\mathbf{x}-\mathbf{\mu})\right) ~,~ k=2 \tag{1}$

식(1)에서 굳이 $k=2$ 로 쓴 이유는 식(1)의 형식 자체가 삼변량, 사변량 등등 다변량 정규분포를 설명하는데 똑같이 등장하는 식이어서 그렇습니다. 일반적으로 $k$ 변량 정규분포의 pdf는 식(1)과 같이 생겼습니다. 그 대신 평균과 공분산인 $\mathbf{x}, \Sigma$ 의 사이즈가 차원에 맞춰서 달라지겠죠.

어쨌든 계속 변수 2개인 상황을 진행해 봅시다. 식(1)을 풀어쓰면

$f_2(x_1, x_2) = {\textstyle{\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}} \exp\left\{ -\frac{1}{2(1-\rho^2)} \left[ \left( \frac{x_1-\mu_1}{\sigma_1} \right)^2 + \left( \frac{x_2-\mu_2}{\sigma_2} \right)^2 -2\rho \frac{(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2} \right]\right\}}\tag{2}$

간단하게 두 가지 사실을 관찰해 보겠습니다.

$X_1,X_2$ 가 독립이라면?

$X_1,X_2$ 가 독립이라면 상관관계가 없습니다. 즉, $\rho=0$ 인 상황이죠. 이 때의 pdf 함수는 다음과 같이 분리됩니다.

$\begin{align} f_2(x_1, x_2) &= \frac{1}{2\pi\sigma_1\sigma_2} \exp\left\{ -\frac{1}{2} \left[ \left( \frac{x_1-\mu_1}{\sigma_1} \right)^2 + \left( \frac{x_2-\mu_2}{\sigma_2} \right)^2 \right]\right\}\\ & = \frac{1}{\sqrt{2\pi}\sigma_1} \exp \left[ -\frac12 \left( \frac{x_1-\mu_1}{\sigma_1} \right)^2 \right] \cdot \frac{1}{\sqrt{2\pi}\sigma_2} \exp \left[ -\frac12 \left( \frac{x_2-\mu_2}{\sigma_2} \right)^2 \right]\\ & = f_1(x_1) \cdot f_1(x_2) \end{align}$

가 성립합니다. 여기서 $f_1$ 은 정규분포의 pdf입니다. ( $f_1$ 은 정규분포의 평균과 분산에 따라 모양이 달라지지만, 편의상 이렇게 썼습니다.)

즉, 2변량 정규분포의 pdf가 1변량 정규분포의 곱으로 쪼개질 수가 있죠. 이것이 바로 독립이라는 개념의 중요한 성질 중 하나입니다.

이변량 표준 정규분포의 경우

이 때는 식이 좀 간단해집니다. $\mu_1=\mu_2=0$ 이고 $\sigma_1 =\sigma_2=1$ 인 상황이므로

$f_2(x_1, x_2) = \frac{1}{2\pi\sqrt{1-\rho^2}} \exp\left( -\frac{x_1^2 -2\rho x_1x_2 +x_2^2}{2(1-\rho^2)} \right)$

와 같이 간단해(?)집니다.

결합확률밀도함수(joint pdf)의 의미

확률변수 $X_1,X_2$ 가 결합확률밀도 $f_2$ 를 가진다는 의미는 이렇습니다.

점 $(x_1,x_2)$ 근방의 아주 조그마한 영역 $\{ x_1\leq X_1 \leq x_1+dx_1 , x_2 \leq X_2 \leq x_2+dx_2 \}$ 의 확률이

$\mathbb{P}( x_1\leq X_1 \leq x_1+dx_1 ~,~ x_2 \leq X_2 \leq x_2+dx_2 ) = f_2(x_1,x_2) dx_1 dx_2$

라는 이야기입니다.

이러한 개념을 이용하여 결합확률밀도의 적분 형태, 즉, 결합 누적분포함수(cumulative distribution function)을 정의할 수 있습니다.

이변량 정규분포의 누적분포함수(cdf)

이변량 정규분포 $(X_1, X_2)$ 의 누적분포 함수 $F_2(a_1, a_2)$ 는 아래처럼 정의됩니다.

$\begin{align} F_2(a_1, a_2) & = \mathbb{P}(X_1\leq a_1, X_2 \leq a_2) \\ & = \int_{-\infty}^{a_1} \int_{-\infty}^{a_2} f_2(x_1, x_2) dx_1 dx_2 \end{align}$

그림으로 보면 이렇습니다.

1변수 표준 정규분포의 pdf , cdf 와 마찬가지로, 이변량 표준정규분포의 pdf와 cdf 함수 모두 python 함수로 제공되고 있습니다. 다음 글에서는 python 으로 이변량 표준정규분포의 pdf, cdf를 구하는 방법을 알아보겠습니다.

728x90

'수학의 재미 > 확률분포' 카테고리의 다른 글

이변량 정규분포: python code (0)	2022.10.25
상관관계가 있는 두개의 표준정규분포 난수 구하기 (0)	2022.09.16
확률측도를 바꿉시다: Girsanov Theorem (1)	2022.06.28
술먹고 걷기(Random Walk) #2: 동서남북 내키는대로~ (0)	2022.06.25
술먹고 걷기(Random Walk) #1: 길따라 걷기 (0)	2022.06.25

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Finance Diary

이변량 정규분포(bivariate normal distribution)