Problema: Los datos vienen de dos fuentes diferentes las cuales son un archivo csv y una página web.
Objetivo: Por una parte, lo primero es obtener los datos que interesan de la página web haciendo scraping de esta, luego llevar los datos a un data lake para luego hacer las consultas que permitan generar una o más nuevas tablas de la información relevante.
- AWS (S3, Glue, Athena, IAM)
- GoogleColab
- SQL
- Python
- Pandas
- BeautifulSoup
- Requests
- Web scraping: Obtener los datos de una tabla que existe en una página web.
- Servicios Cloud: AWS S3 para guardar los datos, AWS Glue para crear crawlers que detecten el esquema de los datos y Athena para realizar consultas SQL.
Luego de estos pasos iniciales es posible transformar los datos y almacenarlos a través de pipelines con AWS Glue, con un job como el demostrado de ejemplo al final de la sección de Screenshots. También es posible llevar los datos a un servicio de visualización como AWS QuickSight.