정사영에 관해 알아봅시다.
필자는 단순하게 선형대수 계산을 위해서만 정사영을 이해했었는데요. 데이터를 공부하고, 계량경제학을 접하면서 정사영의 쓰임새에 대해서 더 넓게 이해할 수 있었습니다.
데이터 분야에서 정사영이 중요한 이유는 무엇보다도 선형회귀 (최소제곱법)에 대한 이론적 근거를 제시하기 때문입니다.
어떻게 제시를 하느냐?
정사영은 임의의 두 벡터 x와 y에 대해서 y가 x로 갈 수 있는 가장 짧은 거리를 제시합니다. 그림으로 이해를 해보자면
y벡터에서 선 x로 가는 가장 짧은 거리를 검은색 실선으로 나타내고 있습니다. 바로 수직으로 떨어뜨리는 것이죠.
따라서 내적의 정의에 의해서 x에 수직인 검정색 실선을 의미하는 벡터 w와 x의 내적의 값은 0이 될 수밖에 없습니다.
실제로 정사영의 식은 위 원리에 기반하여 유도할 수 있습니다.
위 그림을 수식으로 설명을 해보자면,
벡터 \( \mathbf{x} = \overrightarrow{OQ} \)와 \( \mathbf{y} = \overrightarrow{OP} \)가 \( \mathbb{R}^3 \) 에 있고, 벡터 \( \mathbf{x} \)는 0벡터가 아니라고 하겠습니다.
이때 점 P에서 OQ에 내린 수선의 발을 S라고 할 때, 벡터 \( p = \overrightarrow{OS} \)를 \( \mathbf{x} \)위로의 \( \mathbf{y} \)의 정사영이라 하고 \( \text{proj}_x \mathbf{y} = \mathbf{p} \) 라고 나타냅니다.
우리는 내적이 0인 부분에 대해서 서로 직교임을 알 수 있는데, \( \mathbf{y} \)에서 \( \mathbf{p} \)를 빼게 된다면 \( \mathbf{x} \)에 수직인 벡터를 구할 수 있게 됩니다. 이것을 \( \mathbf{w} = \mathbf{y} - \mathbf{x} \) 라고 표현할 수 있습니다.
정사영의 수식은 다음과 같이 정의됩니다.
$$ \text{proj}_x \mathbf{y} = t \mathbf{x} $$
여기서 \( t = \frac{\mathbf{y} \cdot \mathbf{x}}{\mathbf{x} \cdot \mathbf{x}} \) 로 표현할 수 있는데요. 이 식을 유도하는 과정을 y와 w에 입각해서 표현할 수 있습니다.
우리는 x와 w의 내적이 0인것을 내적의 정의에 의해서 그리고 직교 성질에 의해서 알 수 있습니다.
때문에
\( \mathbf{w} \cdot \mathbf{x} = 0 \)
\( \Leftrightarrow (\mathbf{y}-t \mathbf{x}) \mathbf{x} = 0 \)
\( \Leftrightarrow \mathbf{y} \cdot \mathbf{x} -t \mathbf{x} \cdot \mathbf{x} = 0 \)
\( \Leftrightarrow t = \frac{\mathbf{y} \cdot \mathbf{x}}{\mathbf{x} \cdot \mathbf{x}} \)
으로 표현할 수 있습니다.
위 식을 \( \text{proj}_x \mathbf{y} = t \mathbf{x} \)에 대입한다면,
$$ \text{proj}_x \mathbf{y} = t \mathbf{x} = (\frac{\mathbf{y} \cdot \mathbf{x}}{\mathbf{x} \cdot \mathbf{x}}) \cdot \mathbf{x} $$
위 처럼 정사영에 대한 식을 유도할 수 있습니다.
'선형대수학 > 벡터' 카테고리의 다른 글
내적과 코사인유사도 (dot product & cosine similarity) (0) | 2022.12.22 |
---|---|
Norm, 노름, 거리, euclidean distance, 데이터 유사도 (0) | 2022.12.21 |
정형데이터 관점에서의 벡터 (0) | 2022.12.21 |
일차결합(linear combination) (0) | 2022.12.21 |