Big Ben
Big Ben's Log
Big Ben
전체 방문자
오늘
어제
  • 전체 글 (80)
    • 파이썬 (23)
      • 파이썬 기초 (5)
      • 클래스 (6)
      • 자료구조 (4)
      • Tensorflow (3)
      • PyTorch (2)
      • konlpy (1)
      • anaconda (1)
    • 머신러닝 (3)
      • 선형회귀 (1)
      • Tree 기반 (1)
    • 딥러닝 (6)
      • NLP (2)
      • VISION (2)
      • TABULAR (0)
      • 딥러닝 서버 구축 (2)
    • 그래프 이론 (1)
      • 그래프마이닝 (1)
      • GNN (0)
    • 강화학습 (3)
      • 강화학습 기본 (3)
    • 인공지능 (5)
    • 추천시스템 (2)
      • 추천시스템 기초 (2)
    • Competitions (1)
    • 빅데이터 (8)
      • 하둡 (3)
      • 스파크 (4)
      • 클라우드 (1)
    • SQL (7)
      • MariaDB (2)
    • 논문 리뷰 (2)
    • 대학원 (0)
      • 데이터 사이언스 (0)
      • 경제학 (0)
    • 선형대수학 (7)
      • 선형대수 ICE BREAKING (1)
      • 벡터 (5)
      • 고윳값 (1)
    • 개인프로젝트 (0)
      • 포트폴리오 대시보드 + AI기반 주식 자동매매 (0)
    • 재테크 (1)
    • 자동차 (0)
    • 알고리즘 (11)

블로그 메뉴

  • 홈
  • 태그
  • 미디어로그
  • 위치로그
  • 방명록

공지사항

인기 글

태그

  • mysql
  • 프로그래머스
  • MariaDB
  • 인공지능
  • TensorFlow
  • 데이터베이스
  • 객체
  • 자료구조
  • 파이썬기초
  • 프로그래밍
  • 파이썬
  • 머신러닝
  • PYTHON
  • 객체지향
  • 딥러닝
  • sql
  • class
  • 선형대수학
  • 하둡
  • 백준
  • 코테
  • 빅데이터
  • 데이터
  • 데이터사이언스
  • 알고리즘
  • 선형대수
  • AI
  • 코딩테스트
  • pytorch
  • Baekjoon

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
Big Ben

Big Ben's Log

정형데이터 관점에서의 벡터
선형대수학/벡터

정형데이터 관점에서의 벡터

2022. 12. 21. 15:06
반응형

선형대수의 개념을 모르는 사람이더라도, 엑셀은 사용해봤으리라 생각이 든다.

 

우리는 어떠한 정보를 기록해두기 위해서 엑셀을 사용하는데, 엑셀 테이블의 행과 열이 선형대수 관점에서 어떻게 사용되고 있을까?

 

아래의 사람의 개인정보를 담은 테이블을 보자

 

각 행은 한 사람에 대한 데이터를 담고 있다.

 

이 맨 윗 행에 대한 정보를 테이블에서 똑 떼와서 본다면 160cm, 80kg, 19세, 남성 이라는 정보가 --> (160, 80, 19, 1) 이렇게 하나의 벡터로 표현을 할 수 있다.

 

물론 파이썬 pandas의 관점에서 생각을 해보면, 하나의 열 (키, 몸무게, 연령, 성별)  이라는 변수들이 벡터로서 표현되어 각 열벡터가 하나로 취합되어 테이블(=데이터프레임=행렬)로써 표현이 되고 있다.

 

마찬가지로 두번째 세번째 행에 대한 정보를 똑 떼와서 데이터로 표현해보면 각각 --> (170, 70, 27, 2)와 (180, 56, 30, 1)로 표현할 수 있다.

 

이를 하나로 취합한다면 

 

(160, 80, 19, 1)

(170, 70, 27, 2) 

(180, 56, 30, 1)

 

이렇게 표현이 되는데, 이때 데이터를 행렬이라는 개념에 입각해서 바라볼 수 있다.

 

$$ \begin{bmatrix}
 160&  80&  19& 1 \\
 170&  70&  27& 2 \\
 180&  56&  30& 1 \\
\end{bmatrix} $$

 

이렇듯 정형데이터도 선형대수 관점에서 바라보면 다양한 응용을 할 수 있다.

 

위 데이터의 표현을 기반으로 활용하는 사례를 하나 들어보자면... 

추천시스템에서는 

우리는 Euclidean distance를 구해서 김**과 이**의 거리가 더 가까운지, 또는 김**과 박**의 거리가 더 가까운지 확인할 수 있다.

 

이걸 어디서 쓰느냐? 거리가 짧으면 그만큼 의미가 비슷하다고 판단하기에, 추천시스템에서 쉽게 활용이 될 수 있다.

 

마찬가지로 코사인 유사도를 적용할 수 있다.

 

이 외의 고급 데이터 사이언스 기법들이 있으나, 여기서는 생략하도록 하겠다.

 

벡터를 알고 선형대수를 공부한다면, 단순 테이블을 보더라도 활용방안에 대해 더 깊고 빠르게 생각할 수 있다는 장점이 있다.

반응형
저작자표시 (새창열림)

'선형대수학 > 벡터' 카테고리의 다른 글

[선형대수] 정사영 (Projection)  (1) 2022.12.23
내적과 코사인유사도 (dot product & cosine similarity)  (0) 2022.12.22
Norm, 노름, 거리, euclidean distance, 데이터 유사도  (0) 2022.12.21
일차결합(linear combination)  (0) 2022.12.21
    '선형대수학/벡터' 카테고리의 다른 글
    • [선형대수] 정사영 (Projection)
    • 내적과 코사인유사도 (dot product & cosine similarity)
    • Norm, 노름, 거리, euclidean distance, 데이터 유사도
    • 일차결합(linear combination)
    Big Ben
    Big Ben
    Data Scientist

    티스토리툴바