본문 바로가기
수학의 재미

트렌드 직선의 비밀(선형회귀) #2

by hustler78 2022. 5. 11.
728x90
반응형

이 글은

2022.05.10 - [수학의 재미] - 트렌드 직선의 비밀(선형회귀)

에서 이어집니다.

 

$n$개의 데이터 $(x_1,y_1), (x_2,y_2),\cdot, (x_n,y_n)$ 이 있고, 이 데이터를 잘 설명하는 직선의 식을 $y=ax+b$라 할 때 우리의 목적은

 

$$f(a,b) = \sum_{i=1}^n (y_i -(ax_i+b))^2 $$

를 최소로 하는 $a$와 $b$를 찾는 것입니다. 최솟값을 찾을 땐 보통 미분을 하여 미분값이 0이 되는 점을 찾습니다. 하지만 위의 식은 $a,b$ 이변수 함수인데도 가능할까요? 

가능합니다. 대신 미분값이 성분이 2개인 벡터로 표시됩니다. 이를 gradient라 하고 다음처럼 정의합니다.

$$\nabla f(a,b) = \Big( \frac{\partial f}{\partial a}, \frac{\partial f}{\partial b}\Big) $$

 

gradient 벡터가 0 인 점에서 함수 $f$ 는 극값을 가지고, 이 극값은 최소값임은 쉽게 알 수 있습니다.

이제 각 편미분을 구하면

 

$$ \frac{\partial f }{\partial a} = -2\sum_{i=1}^n x_i\big(y_i - (ax_i+b)\big) $$ 

$$ \frac{\partial f}{\partial b} = -\sum_{i=1}^n \big(y_i-(ax_i+b)\big)$$

 

이고 이 값이 둘 다 0 이므로

 

$$ \sum_{i=1}^n x_i\big(y_i - (ax_i+b)\big) =0,  \sum_{i=1}^n \big(y_i-(ax_i+b)\big) =0 $$

 

이 식은 멋지게 정리하는 방법이 있습니다. $x_1,x_2,\cdots,x_n$을 샘플로 가지는 변수를 $X$라 쓰고, 마찬가지로 $y_1,y_2,\cdots,y_n$을 샘플로 가지는 변수를 $Y$라 씁니다. 그리고 통계에서 쓰는 기댓값 기호인 $\mathbb{E}$ 을 사용하면,

위의 두 등식은 각각

$$ \mathbb{E}(XY) = a\mathbb{E}(X^2)+b\mathbb{E}(X), $$ 

$$ \mathbb{E}(Y) = a\mathbb{E}(X) + b $$

 

정리하면,

$$ a = \frac{\mathbb{E}(XY)-\mathbb{E}(X)\mathbb{E}(Y)}{\mathbb{E}(X^2)-\mathbb{E}(X)^2}, $$

$$ b= \mathbb{E}(Y)-a\mathbb{E}(X) $$

 

이 됩니다. 더 멋지게 정리해 볼까요? 분산, 두 변수의 공분산을 알고 있다면 그 식이

$$\rm{COV}(X,Y) = \mathbb{E}(XY)-\mathbb{E}(X)\mathbb{E}(Y), $$

$$\mathbb{V}(X) = \mathbb{E}(X^2)-\mathbb{E}(X)^2 $$

으로 표현됨을 아실 것입니다.  여기서 $\rm{COV}(\cdot,\cdot) $는 공분산, $\mathbb{V}(\cdot)$는 분산을 의미합니다.

이 식을 사용하면

 

$$ a= \frac{\rm{COV}(X,Y)}{\mathbb{V}(X)} ,~ b=\mathbb{E}(Y)- \frac{\rm{COV}(X,Y)}{\mathbb{V}(X)} \mathbb{E}(X) $$

 

처럼 쓸 수 있습니다. 다음 글에서는 이렇게 찾은 직선이 데이터의 경향성을 얼마나 잘 설명해 주는지 판별하는 방법에 대하여 다루겠습니다.

 

728x90
반응형

댓글