norm

    Norm, 노름, 거리, euclidean distance, 데이터 유사도

    필자는 처음 선형대수학을 공부할 때 내적이라는 개념이 나오면 도대체 왜?? 해야하는지 궁금했던 것 같다. 직교나 정사영에 대해 배우기 전에는 당최 이해가 되질 않았다. 벡터로써 norm은 자기 자신의 크기(magnitude)가 얼마나 큰 지 알 수 있을 뿐만 아니라, 다른 벡터와 같이 사용될 때 그 의미가 체감되는 것을 알 수 있었다. 예를 들면 데이터의 유사도(similarity)를 구한다고 생각해보자. 어떤 기준으로 임의의 두 데이터 A와 B가 유사하다고 판단할 것인가? 사람의 고향, 나이, 학력, MBTI 등과 같은 것을 알수 있다면, 조금 더 쉽게 유사한 사람인지 아닌지를 알 수 있지 않을까 생각한다. 이걸 선형대수학에서는 크게 두가지 관점에서 확인할 수 있는데, 바로 거리를 활용한 데이터 유사도..

    정형데이터 관점에서의 벡터

    선형대수의 개념을 모르는 사람이더라도, 엑셀은 사용해봤으리라 생각이 든다. 우리는 어떠한 정보를 기록해두기 위해서 엑셀을 사용하는데, 엑셀 테이블의 행과 열이 선형대수 관점에서 어떻게 사용되고 있을까? 아래의 사람의 개인정보를 담은 테이블을 보자 각 행은 한 사람에 대한 데이터를 담고 있다. 이 맨 윗 행에 대한 정보를 테이블에서 똑 떼와서 본다면 160cm, 80kg, 19세, 남성 이라는 정보가 --> (160, 80, 19, 1) 이렇게 하나의 벡터로 표현을 할 수 있다. 물론 파이썬 pandas의 관점에서 생각을 해보면, 하나의 열 (키, 몸무게, 연령, 성별) 이라는 변수들이 벡터로서 표현되어 각 열벡터가 하나로 취합되어 테이블(=데이터프레임=행렬)로써 표현이 되고 있다. 마찬가지로 두번째 세번..