PySpark é uma biblioteca Spark escrita em Python, e seu objetivo é permitir a análise interativa dos dados em um ambiente distribuído. Seu uso é extremamente importante quando o assunto é grande volume de dados, BigData, por conta do seu processamento eficiente de grandes conjuntos de dados.
Os dados para esse tutorial foram obtidos no Kaggle, a base é pequena, então teoricamente utilizar o pyspark nesse caso seria "matar uma mosca com um canhão", mas como o objetivo é explorar as principais funções, esse dataset vai nos atender bem.
Vamos explorar as principais funções:
- Count
- Describe
- Select
- OrderBy
- WithColumnRenamed
- WithColumn
- When
- Drop
- Filter
- Where
- GroupBy
Você precisará de Python 3 e pip. É altamente recomendado utilizar ambientes virtuais
com o virtualenv ou com o conda e o arquivo requirements.txt
para instalar os pacotes dependências
do projeto:
Conda
$ conda create --name nameenv python
$ conda activate nameenv
$ pip install -r requirements.txt
Virtualenv
$ pip3 install virtualenv
$ virtualenv venv -p python3
$ source venv/bin/activate
$ pip install -r requirements.txt
Para executar o PySpark, você também precisa que o Java seja instalado.