고윳값, 고유벡터는 데이터 분석 분야에 다양하게 활용된다.
특히 다변량(변수가 많이 존재하는) 경우에서 활용가치가 무궁무진하다고 할 수 있다.
이는 바로 ‘데이터의 좋은 성질을 공유하고, 이 좋은 성질을 최대한 보존한 채로 행렬을 단순화 할 수 있는 방법’을 공유할 수 있기 때문이다
[ 고윳값, 고유벡터, 고윳값 분해 ]에 대해서 본격적으로 알아보기 위해서라면 행렬대수의 기본적인 공부를 선행할 필요가 있다. (역행렬, 가역행렬, 일차독립, 행렬연산 등등..)
임의의 행렬 A와 임의의 행렬 B가 어떤 경우에 ‘닮은 행렬’이 되는지에 대해서도 이해할 필요가 있으며, 닮은 행렬이 되었을 경우 두 행렬의 행렬식이 같고, 대각합(trace)이 똑같음을 직관적으로 이해할 수 있어야 한다.
‘닮은 행렬’을 이해했다면, 대각화 가능한 행렬(diagonalisable matrix)에 대해서도 알아둘 필요가 있다.
임의의 행렬 A와 D는 닮은 행렬이고, 만약에 적당한 가역행렬 P가 존재하여 AP = PD 의 식을 성립한다면, A를 대각화 가능한 행렬이라고 부를 수 있다.
이때 해당 식의 요소들을 뜯어서 살펴보면 \(Ax = \lambda x\) 에 대해서 성립함을 볼 수 있으며, 여기서 \(x\)를 고유 벡터 그리고 \(lambda\)를 고윳값이라고 부른다.
이 식에서 이제 고윳값을 구하는 방법을 유도할 수 있다.
\(Ax = \lambda x\) 일 때, 이항을 통해 한쪽 변을 0으로 설정해 둔 뒤, 해당 식에 대해서 행렬식(determinant)를 구한다면 자연스럽게 \(\lambda\)의 값을 유도할 수 있게 된다.
\((\lambda I_n x - Ax) = 0\)
\((\lambda I_n - A)x = 0\)
위 식에서 (중복도를 포함한) 한개 이상의 고윳값을 구할 수 있게 되는데, 해당 고윳값을 위 식에 대입하여 벡터를 구한다면, 그게 바로 고유벡터가 된다.
이때 정말 중요한 성질 한가지가 나오게 되는데, A의 서로 다른 고윳값에 대응하는 고유벡터들은 일차독립이라는 사실이다. 이걸 통해 고유공간(eigenspace)를구할 수 있고, 이 벡터 공간은 \(R^n\)의 부분공간이 된다.