Proyecto: ETL

Contexto

Problema: Los datos vienen de dos fuentes diferentes las cuales son un archivo csv y una página web.

Objetivo: Por una parte, lo primero es obtener los datos que interesan de la página web haciendo scraping de esta, luego llevar los datos a un data lake para luego hacer las consultas que permitan generar una o más nuevas tablas de la información relevante.

Herramientas

AWS (S3, Glue, Athena, IAM)
GoogleColab

Lenguaje

SQL
Python

Librerías

Pandas
BeautifulSoup
Requests

Técnicas Aplicadas

Web scraping: Obtener los datos de una tabla que existe en una página web.
Servicios Cloud: AWS S3 para guardar los datos, AWS Glue para crear crawlers que detecten el esquema de los datos y Athena para realizar consultas SQL.

Siguientes pasos

Luego de estos pasos iniciales es posible transformar los datos y almacenarlos a través de pipelines con AWS Glue, con un job como el demostrado de ejemplo al final de la sección de Screenshots. También es posible llevar los datos a un servicio de visualización como AWS QuickSight.

Karmacode00 / superstore_etl