Pit-CL / webscrapping

Tarea WebScrapping

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

En grupos de máximo tres personas deberán resolver los dos problemas descritos abajo. Deben entregar el notebook con el código para resolver cada problema. Agregue comentarios al código para entender el razonamiento utilizado.

Realice un proceso de web scraping para el sitio https://jetsmart.com/cl/es/. Para ello, realice las siguientes tareas:

Utilizar Selenium para emular un navegador y cargar la página requerida (1 punto).

Buscar vuelos desde Santiago a Arica del 1 de abril al 30 de abril utilizando los campos de inputs del buscador de la página (1 punto).

Una vez en la página de resultados, extraiga la información de precios y fechas de vuelos de ida y de vuelta (1 punto).

Repita el proceso para todos los días de febrero y genere un dataframe con la información de precios y fechas (1 punto). Crear una base de datos sqlite con la información del dataframe (1 punto).

Realizar una consulta SQL para seleccionar los vuelos de ida y vuelta con el precio total mínimo (1 punto).

Utilizando la API de Twitter, realice las siguientes tareas:

Extraer los últimos 1.000 tweets de tu usuario preferido que escriba en español (1 punto)

Hacer un análisis de frecuencia de palabras (100 palabras más frecuentes), habiendo removido primero stopwords y usando tokenización en español (2 puntos).

Extraer 100 usuarios que son seguidos por su usuario de preferencia y extraer los últimos 10 tweets de cada uno de esos usuarios (1 punto).

Hacer un análisis de frecuencia de palabras igual al de la parte b) (100 palabras más frecuentes), de los tweets extraídos en la parte c) (2 puntos).

Cada pregunta tiene una escala de 1 a 7. El promedio de ambas preguntas resulta en la nota final de la tarea.

About

Tarea WebScrapping


Languages

Language:Jupyter Notebook 95.0%Language:Python 4.8%Language:JavaScript 0.2%