taohansens / infnet-bigdata-hadoop

Micro cluster para experimentar Hadoop and Spark rodando em Docker

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Infnet: Fundamentos de Infraestrutura para Big Data
Spark & Hadoop

Exercícios

  • F1: F1.md
  • Pagamentos Bolsa Família: TBD
  • Baby Names Challenge: TBD

Dependências

Árvore de diretórios do projeto

├── docker-compose.yml
├── Dockerfile
├── confs
│   ├── config
│   ├── core-site.xml
│   ├── hdfs-site.xml
│   ├── mapred-site.xml
│   ├── requirements.req
│   ├── slaves
│   ├── spark-defaults.conf
│   └── yarn-site.xml
├── datasets
│   ├── alice_in_wonderland.txt
│   └── iris.csv
│   └── 202001_BolsaFamilia_Pagamentos.csv
│   └── f1
│     |── circuits.csv
│     |── constructorResults.csv
│     |── constructorStandings.csv
│     |── constructors.csv
│     |── driverStandings.csv
│     |── drivers.csv
│     |── lapTimes.csv
│     |── pitStops.csv
│     |── qualifying.csv
│     |── races.csv
│     |── results.csv
│     |── seasons.csv
│     └── status.csv
├── notebooks
│   ├── Bash-Interface.ipynb
│   ├── Dask-Yarn.ipynb
│   ├── Python-Spark.ipynb
│   └── Scala-Spark.ipynb
└── script_files
    └── bootstrap.sh

Download datasets

Comando para criação da imagem base do projeto

docker build . -t cluster-base

Comando para execução do cluster

docker-compose up -d

Parâmetro -d inicializa a aplicação em background

Comando para listar os containers docker em execução

docker ps

Interface gráfica de gerenciamento do cluster - Yarn

Acesse a interface gráfica de gereciamento Yarn através do link: http://localhost:8088/cluster/nodes

yarn ui

Jupyter notebook

Acesse o Jupyter Notebook através do link: http://localhost:8888/

jupyter

Interrompendo o uso do cluster

docker-compose down

Caso queira apagar todos os volumes associados ao projeto, basta inserir o parâmetro -v no comando acima
Cuidado que isso faz com que todo o projeto seja baixado e configurado do ZERO!

Referências

About

Micro cluster para experimentar Hadoop and Spark rodando em Docker

License:MIT License


Languages

Language:Jupyter Notebook 98.3%Language:Python 1.0%Language:Dockerfile 0.3%Language:Shell 0.2%Language:Makefile 0.1%