Big Ben's Log

[M1 맥] 스파크 설치하기 (Spark)

2023.02.19

스파크 설치에 앞서 하둡(Hadoop) 설치와 자바(JAVA) 설치를 선행하시는 것을 추천드립니다. M1 맥북에 Hadoop 설치하기 M1 맥북에 Java 설치하기 스파크 설치 스파크 설치 시, 본인 로컬 환경에 설치되어 있는 하둡 버전을 고려하여 설치하는 것을 추천드립니다. 따라서 brew를 통한 설치 또는 묻지마 설치 보다는, 버전을 체크하고 설치를 진행하는 것이 좋습니다. 1. Apache Spark 웹사이트 이동 그렇게 하기 위해서 아파치(apache) 웹사이트로 접속하겠습니다. https://spark.apache.org/downloads.html Downloads | Apache Spark Download Apache Spark™ Choose a Spark release: Choose a pa..

빅데이터/스파크

[M1 Mac]oh-my-zsh 설치 이후 command not found 이슈 해결 방법

2023.02.19

대부분의 경우 iterm2 커스터마이징을 시작하는 시기가 '맥북을 구매한 직후 환경설정 시'가 아닐까 싶다. 하지만 필자와 같이 iterm2에 dracula와 같은 theme만 입히고 사용하다가, 가독성을 이유로 oh-my-zsh를 나중에 설치하는 경우 문제가 command not found 문제가 발생할 수 있다. 개인 로컬에서 많은 프로그래밍 작업을 하다가, oh-my-zsh를 설치하게 되면 Java 경로를, conda 경로를, brew 경로를, wget 경로를 못잡아서 스트레스를 받을 수 있다. 바로 본론으로 넘어가자. iterm2 oh-my-zsh 설치 이후, 기존에 사용하던 커맨드가 안먹히기 시작했다. 이건 ~/.zshrc 파일에 설정해 둔 path가 없어져서 문제가 되는 경우이다. 따라서 pa..

빅데이터/스파크

[Spark] 아파치 스파크 - 3가지 핵심요소 (통합, 컴퓨팅엔진, 라이브러리)

2023.02.19

[ 본 페이지는 스파크 완벽 가이드 (Spark - the Definitive Guide) 책을 토대로 작성되었습니다 ] 막연하게 스파크(Spark)를 처음 공부하면, 당최 이 스파크라는 친구가 '뭐하는 녀석일까?' 라는 생각에 잠길 수 있습니다. 데이터를 저장하고, SQL도 사용하고, 파이썬 연동도 되고... 물론 숙련된(?) 데이터 엔지니어나 학습자 같은 경우에는 아니겠지만, 처음 빅데이터 세계에 입문했다면 스파크를 DBMS와의 차이점을 찾아내기가 쉽지 않을수도 있습니다. 책의 내용을 빌려 스파크를 설명하자면 스파크는 '빅데이터를 위한 통합 컴퓨팅 엔진과 라이브러리 집합' 입니다. 그렇다면 스파크가 어떻게 기존 DBMS와 다르고, 또 다른 빅데이터 플랫폼인 하둡과는 또 어떻게 다른지 핵심 3요소를 살..

빅데이터/하둡

[하둡] MapReduce란? (MapReduce기초1)

2023.02.16

MapReduce는 2004년에 구글에서 발표한 데이터 처리 알고리즘입니다. Hadoop의 MapReduce는 구글이 발표한 MapReduce 논문을 자바로 구현한 애플리케이션이라고 생각하면 됩니다. MapReduce의 뜻은 함수형 프로그래밍에서의 map 함수와 reduce 함수의 합성어인데요. 구체적으로 map은 'collection에 있는 모든 원소에 적용되는 변환 함수'라고 할 수 있으며, reduce는 '각 원소에 집계함수를 적용하는 함수'라고 알고 넘어가면 되겠습니다. 하둡을 처음 공부하게 되면, 너무 많은 용어가 혼재되어 다가오기때문에 굉장히 어지럽고 복잡하게 느껴지실텐데요. 저의 이해를 위해서 최대한 간단하게 간추려서 직관적으로 설명하겠습니다. 따라서 틀린 내용이 있다면, 남겨주신다면 수정 ..

빅데이터/하둡

[M1 맥북] 하둡(hadoop) 설치

2023.02.16

안녕하세요. M1 맥북으로 하둡 설치하는 과정에 대해 다뤄보겠습니다. 상당히 복잡하게 느껴질 수 있으나, 아래의 흐름대로 설치하신다면 정상 작동하리라 생각됩니다. 1. 자바 설치 & 경로 설정 하둡을 정상적으로 구동하기 위해서는 자바가 설치되어 있어야 합니다. 또한 아무 버전의 자바가 아닌, 현재 시점 기준에서는 Java 8 또는 11 버전을 설치해야 합니다. 만약에 본인의 자바 버전이 둘중 하나가 아닐 경우 재설치가 필요합니다. 결국에는 하둡을 설치해도 정상적으로 작동할 수 없기 때문이죠. 자세한 내용은 아파치 하둡 공식 도큐먼트를 참고하시면 되겠습니다. 또한 m1맥북의 자바 재설치 방법은 제 블로그 내에도 기재된 포스팅이 있으니 참고하시면 도움이 되리라 생각됩니다. 아래는 자바와 관련된 체크리스트 입..

빅데이터/하둡

[M1 맥북] Java 설치 / 재설치 방법 / 삭제 방법

2023.02.16

M1 맥북으로 Java 설치하는 방법에 대해 공유하도록 하겠습니다. 사실 hadoop을 이용하지 않는다면, 단순하게 brew를 통해 java설치를 진행해도 문제가 없다라고 느껴집니다. 하지만 필자처럼 hadoop 환경을 본인 맥북 로컬 환경에 설치 & 구동 하고자 하는 분들은 java 버전을 필수적으로 맞춰주어야 합니다. 따라서 저는 기존의 java 19 버전을 삭제 -> 11버전으로 재설치 과정을 거쳤습니다. M1 맥북 프로에서 기존 자바 삭제 방법 다음과 같은 과정을 통해 설치된 자바를 삭제할 수 있습니다. terminal창에 다음 명령을 복하여 붙여넣습니다. sudo rm -fr /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin sudo rm -fr /Li..

Competitions

[Colab] 구글 코랩에서 Kaggle 데이터 구글드라이브에 다운로드

2023.02.13

데이터 분석 시, 개인 리소스를 사용하다보면 컴퓨터 과열 현상 + 병렬 처리로 인한 멀티태스킹 속도 저하 등이 문제가 될 수도 있습니다. 특히, 백그라운드에서 gpu를 열심히 사용하면서 다른 작업을 하고 있자니 불편함을 겪었을 분들이 많았으리라 생각합니다. 이때 구글 코랩을 사용한다면, 이러한 불편함을 어느정도 피할 수 있게 되는데요. 문제는 대용량 데이터셋을 "어떻게 구글 드라이브에 올리느냐?" 입니다. 가장 간단한 예로 캐글의 딥러닝 고전 경연대회 Dogs vs Cats 분류 문제를 살펴보겠습니다. 데이터 자체는 크지 않습니다. 압축파일 853MB 정도 되는데요. 압축 해제 후, 구글 드라이브에 드래그 앤 드롭으로 올린다면 5시간이 넘게 걸릴 수도 있습니다. 하지만 Colab에서 직접 Kaggle A..

머신러닝

[불균형 데이터] 평가지표 (Metrics)

2023.01.25

불균형 데이터에 대처하는 방법은 다양합니다. 오버샘플링 & 리샘플링과 같은 Resampling 기법을 활용한다던가, Cost Matrix를 만들어서 분류 모델에 클래스별 가중치를 부여하는 방법도 있습니다. 위 기법도 중요하지만, 무엇보다도 중요한 것은 "어떻게 불균형 데이터를 평가할 것인가?"입니다. (수식과 혼동행렬은 곧 업데이트 하겠습니다) Accuracy 정확도(Accuracy)를 사용하기에는 너무 편향된 결과를 야기할 수 있습니다. 예를 들어보겠습니다. 암 환자에 대해서 검사를 한다고 했을 때, 데이터 내 실제 암 환자는 1명이고, 정상인 환자가 99명 있다고 가정하겠습니다. 우리는 모든 데이터를 음성(정상)이라고 예측하면 모델의 정확도는 99/100, 즉 99%가 됩니다. 이렇게만 본다면 매우 ..

전체 글

[M1 맥] 스파크 설치하기 (Spark)

[M1 Mac]oh-my-zsh 설치 이후 command not found 이슈 해결 방법

[Spark] 아파치 스파크 - 3가지 핵심요소 (통합, 컴퓨팅엔진, 라이브러리)

[하둡] MapReduce란? (MapReduce기초1)

[M1 맥북] 하둡(hadoop) 설치

[M1 맥북] Java 설치 / 재설치 방법 / 삭제 방법

[Colab] 구글 코랩에서 Kaggle 데이터 구글드라이브에 다운로드

[불균형 데이터] 평가지표 (Metrics)

티스토리툴바