godoycaique / modern_stack_data_pipeline

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Modern Data Stack Pipeline

O objetivo desse projeto foi criar um pipeline de dados para extrair informações de uma base de dados pública acerca dos casos de COVID19 no mundo.

Fonte de Dados:

Para este projeto, foram usados as seguintes tecnologias:

  • Gitpod: Para criar ambiente de desenvolvimento e subir os containers
  • Docker: Para criação dos containers
  • Airflow: Para realizar a tarefa de orquestrar o pipeline
  • Airbyte: Para conexão na fonte e destino dos dados para ingestão
  • DBT: Para criação de modelo de processamento e transformação dos dados em SQL
  • Snowflake: Para criação de um Data Warehouse e armazenamento dos dados
  • Metabase: Para exploração dos dados e criação de dashboards

Os componentes foram organizados na seguinte arquitetura:

enter image description here

enter image description here

enter image description here

enter image description here

Links uteis:

About


Languages

Language:Shell 41.5%Language:Python 30.8%Language:PLpgSQL 27.8%