crisosilva / ETL-Pipeline

Pipeline de ETL usando Prefect para realizar o fluxo de execução das tasks e o agendamento do fluxo

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

ETL-Pipeline

Projeto de um pipeline de ETL usando a biblioteca prefect que realizará o gerenciamento do fluxo de trabalho podendo ser usado tanto localmente quanto na nuvem, podendo assim substituir o Airflow.

📋 Pré requisitos

Para utilizar o projeto será necessário instalar o Python 3 caso não tenha instalado além das bibliotecas utilizadas no projeto

Instalação do Python

Se o seu SO for o linux o Python já estará instalado, caso esteja utilizando o SO Windows o Python pode ser baixado e instalado em:

https://www.python.org/downloads/windows/

Acesse, baixe e siga as orientações de instalação.

Instalação das bibliotecas

Para instalar as bibliotecas utilize os comandos abaixo:
pip install prefect
pip install pandas

🛠️ Construído com

O pipeline de ETL foi construido utilizando a linguagem de programação Python a IDE PyCharm e as bilbiotecas pandas, requests, datetime.datetime, timedelta, json, prefect.task, prefect.Flow, prefect.Parameter, prefect.schedules.IntervalSchedule prefect.schedules.CronSchedule O dataset trata-se de um arquivo Json baixado do site 'https://dados.antt.gov.br/dataset/a133da64-1e03-4832-909d-e1eb835eec2e/resource/d46bbb49-95f3-44b0-bb9a-0ce095746bbe/download/investimentos.json'

✒ Autores

Projeto criado por Cristiano Oliveira

📌 Versão

Version: 1.0.3

Referências

https://www.prefect.io/

About

Pipeline de ETL usando Prefect para realizar o fluxo de execução das tasks e o agendamento do fluxo


Languages

Language:Python 100.0%