이 글은
2022.05.10 - [수학의 재미] - 트렌드 직선의 비밀(선형회귀)
에서 이어집니다.
$n$개의 데이터 $(x_1,y_1), (x_2,y_2),\cdot, (x_n,y_n)$ 이 있고, 이 데이터를 잘 설명하는 직선의 식을 $y=ax+b$라 할 때 우리의 목적은
$$f(a,b) = \sum_{i=1}^n (y_i -(ax_i+b))^2 $$
를 최소로 하는 $a$와 $b$를 찾는 것입니다. 최솟값을 찾을 땐 보통 미분을 하여 미분값이 0이 되는 점을 찾습니다. 하지만 위의 식은 $a,b$ 이변수 함수인데도 가능할까요?
가능합니다. 대신 미분값이 성분이 2개인 벡터로 표시됩니다. 이를 gradient라 하고 다음처럼 정의합니다.
$$\nabla f(a,b) = \Big( \frac{\partial f}{\partial a}, \frac{\partial f}{\partial b}\Big) $$
gradient 벡터가 0 인 점에서 함수 $f$ 는 극값을 가지고, 이 극값은 최소값임은 쉽게 알 수 있습니다.
이제 각 편미분을 구하면
$$ \frac{\partial f }{\partial a} = -2\sum_{i=1}^n x_i\big(y_i - (ax_i+b)\big) $$
$$ \frac{\partial f}{\partial b} = -\sum_{i=1}^n \big(y_i-(ax_i+b)\big)$$
이고 이 값이 둘 다 0 이므로
$$ \sum_{i=1}^n x_i\big(y_i - (ax_i+b)\big) =0, \sum_{i=1}^n \big(y_i-(ax_i+b)\big) =0 $$
이 식은 멋지게 정리하는 방법이 있습니다. $x_1,x_2,\cdots,x_n$을 샘플로 가지는 변수를 $X$라 쓰고, 마찬가지로 $y_1,y_2,\cdots,y_n$을 샘플로 가지는 변수를 $Y$라 씁니다. 그리고 통계에서 쓰는 기댓값 기호인 $\mathbb{E}$ 을 사용하면,
위의 두 등식은 각각
$$ \mathbb{E}(XY) = a\mathbb{E}(X^2)+b\mathbb{E}(X), $$
$$ \mathbb{E}(Y) = a\mathbb{E}(X) + b $$
정리하면,
$$ a = \frac{\mathbb{E}(XY)-\mathbb{E}(X)\mathbb{E}(Y)}{\mathbb{E}(X^2)-\mathbb{E}(X)^2}, $$
$$ b= \mathbb{E}(Y)-a\mathbb{E}(X) $$
이 됩니다. 더 멋지게 정리해 볼까요? 분산, 두 변수의 공분산을 알고 있다면 그 식이
$$\rm{COV}(X,Y) = \mathbb{E}(XY)-\mathbb{E}(X)\mathbb{E}(Y), $$
$$\mathbb{V}(X) = \mathbb{E}(X^2)-\mathbb{E}(X)^2 $$
으로 표현됨을 아실 것입니다. 여기서 $\rm{COV}(\cdot,\cdot) $는 공분산, $\mathbb{V}(\cdot)$는 분산을 의미합니다.
이 식을 사용하면
$$ a= \frac{\rm{COV}(X,Y)}{\mathbb{V}(X)} ,~ b=\mathbb{E}(Y)- \frac{\rm{COV}(X,Y)}{\mathbb{V}(X)} \mathbb{E}(X) $$
처럼 쓸 수 있습니다. 다음 글에서는 이렇게 찾은 직선이 데이터의 경향성을 얼마나 잘 설명해 주는지 판별하는 방법에 대하여 다루겠습니다.
'수학의 재미' 카테고리의 다른 글
선형회귀의 트렌드 직선과 PCA의 주성분은 서로 같을까? (1) | 2024.04.09 |
---|---|
트렌드 직선의 비밀(선형회귀) #3 (0) | 2022.05.12 |
트렌드 직선의 비밀(선형회귀) (0) | 2022.05.10 |
댓글