The Example Codes of "Spark In Action"
- 책의 실습 예제를 편하게 구동할 수 있도록 Spark와 Jupyter Notebook이 설치된 docker를 사용합니다.
- 아래의 프로그램을 설치합니다.(OS별 설치법 참고)
- docker : https://docs.docker.com/engine/install/
- docker-compose : https://docs.docker.com/compose/
- git : https://git-scm.com/book/en/v2/Getting-Started-Installing-Git
- 윈도우는 아래 링크를 참고하여 WSL로 리눅스를 설치하신 후에 진행하시면 편리합니다.
아래 명령어로 repository 를 clone 한 후, 생성된 폴더로 이동합니다.
git clone https://github.com/dream2globe/SparkInAction.git
cd SparkInAction
책 예제를 다운하기 원하신다면 추가로 아래 명령어를 실행합니다.
git submodule update --init --recursive
- docker-compose.yml 파일 내용 중 volumns의 ":" 앞쪽 path를 본인의 PC 환경을 고려하여 수정합니다
- "db"의 volumes은 원하는 위치에 만든 후에 docker-compose.yml에 반영합니다
db:
volumes:
- ~/workspace/mysql/_dbdump:/var/lib/mysql # mariadb 파일의 저장 장소
spark:
volumes:
- ~/workspace/spark/SparkInAction:/home/jovyan/work
- scripts/entrypoint.sh 파일 내용 중 "schematool -initSchema -dbType mysql" 부분의 주석을 제거
- 최초 1회만 실행하고 2번째 부터는 다시 제거해야 함
- 아래의 명령어로 도커를 실행합니다. -d 옵션은 Background 실행을 의미합니다.
docker-compose up -d
- 웹 브라우저에서 localhost:8888 에 접속합니다. Jupyter Notebook이 실행되며, password는
mysparklab
입니다. - 아래의 명령으로 도커를 중지할 수 있습니다.
docker-compose down