스파크 설치에 앞서 하둡(Hadoop) 설치와 자바(JAVA) 설치를 선행하시는 것을 추천드립니다.
스파크 설치
스파크 설치 시, 본인 로컬 환경에 설치되어 있는 하둡 버전을 고려하여 설치하는 것을 추천드립니다.
따라서 brew를 통한 설치 또는 묻지마 설치 보다는, 버전을 체크하고 설치를 진행하는 것이 좋습니다.
1. Apache Spark 웹사이트 이동
그렇게 하기 위해서 아파치(apache) 웹사이트로 접속하겠습니다.
https://spark.apache.org/downloads.html
위 그림을 보면, 1번 스파크 버전은 최신으로 하지만 2번 package 타입을 본인 하둡 환경에 맞춰 선택하시면 되겠습니다.
저는 hadoop 3.3.4를 사용하고 있기 때문에, 가장 위 '하둡 3.3 또는 더 최신' 옵션을 선택하여 스파크를 다운받겠습니다.
해당 옵션을 선택하면 3번 스파크 다운로드 경로가 표기되는데요, 눌러서 스파크 다운로드 링크로 이동하면 됩니다.
2. wget을 이용한 spark 설치
아래 이미지는 다운로드 링크로 접속했을 때의 화면입니다.
화면 상단에 있는 첫번째 파란색 링크 표시 dlcdn.apache.org/spark/spark-…. 로 시작하는 링크 주소를 복사해줍시다.
이제 터미널로 이동하여 아래의 커맨드를 입력합시다
# 다운로드 경로 입력
wget https://dlcdn.apache.org/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3.tgz
이제 설치가 진행이 되는데요. 설치가 완료되었다면 tgz 파일 압축을 해제하겠습니다.
아래의 커맨드를 입력합니다.
# 압축 해제 (여기선 스파크 3.3.2 버전을 설치)
tar zxvf spark-3.3.2-bin-hadoop3.tgz
# tgz 압축 파일 삭제 (선택사항임)
rm -rf spark-3.3.2-bin-hadoop3.tgz
# 스파크 디렉토리 생성 확인
ls
이제 spark-3.3.2-bin-hadoop3 디렉토리가 생성된 것을 확인할 수 있습니다.
3. Spark 환경변수 설정
다음은 Spark 환경변수 설정입니다.
vim 에디터를 통해 .zshrc파일을 수정해줍시다. 아래 커맨드를 실행합시다.
vim ~/.zshrc
이젠 환경변수 경로를 설정할텐데요. 본인 로컬 환경에 맞춰 경로표기를 해주면 됩니다.
아래는 제 로컬 환경에서의 경로 입니다.
# spartk path
export SPARK_HOME=/Users/ben/spark-3.3.2-bin-hadoop3
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
저장 후 변경사항을 반영합시다.
터미널에서 아래의 커맨드를 입력하면 됩니다.
source ~/.zshrc
이제 echo $SPARK_HOME으로 변경사항이 반영되었는지 확인해보겠습니다.
정상으로 작동한다면
spark-shell 명령어를 실행시켜보겠습니다.
잘 동작하는 것을 볼 수 있습니다.
'빅데이터 > 스파크' 카테고리의 다른 글
[Zeppelin] M1 맥에서 로컬에 제플린 설치하는 방법 (0) | 2023.02.21 |
---|---|
[M1 Mac]oh-my-zsh 설치 이후 command not found 이슈 해결 방법 (0) | 2023.02.19 |
[Spark] 아파치 스파크 - 3가지 핵심요소 (통합, 컴퓨팅엔진, 라이브러리) (0) | 2023.02.19 |