SebasUrbina / Mineria-de-datos

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Tareas curso Introducción a la Mineria de datos CC5206

El presente repositorio contiene el proyecto semestral, las tareas y la resolución de mi equipo semestral compuesto por: Nicolás Herrera, Yesenia Marulanda, Franco Migliorelli, y Samuel Sánchez. En el contexto del curso Introducción a la Mineria de datos del Departamento de Ciencias de la Computación de la Facultad de Ciencias Físicas y Matemáticas de la Universidad de Chile.

Especial agradecimiento a los autores de las tareas y tutoriales: Felipe Bravo, Hernán Sarmiento, Aymé Arango, Alison Fernandez, Cinthia Mabel Sanchez, Juan Pablo Silva.

  • Objetivo: Comprender conceptos esenciales en minería de datos y realizar un análisis exploratorio de un conjunto de datos.

  • Estructura:

    • Preguntas teóricas
    • Análisis Exploratorio de los Datos (EDA)
  • Objetivo: Probar distintos algoritmos de clasificación.

  • Estructura:

    • Explorar los datos.
    • Entrenar un clasificador de 3 maneras:
        1. Entrenando/Testeando con los mismos datos.
        1. Dividiendo el dataset en una parte para entrenar y otra para testear.
        1. Usando cross-validation. Veremos accuracy, precision y recall para luego analizar los resultados.
    • Comparar clasificadores con ciertos baselines o clasificadores base.
    • Seleccionar hiperparámetros.
    • Trabajar con clases desbalanceadas.
  • Objetivo: Probar distintos algoritmos de clustering.
  • Estructura:
    • Preguntas teóricas
    • Probar distintos métodos de clustering:
        1. k-Means
        1. Clustering Jerárquico Aglomerativo
    • Problema abierto: Usando la base de datos IMBD clasifique la puntuación de cada película

Proyecto Semestral

Objetivo: Dado un dataset público se debe realizar un proyecto de minería de datos. Para este caso se trabajó con datos de Twitter para realizar un análisis de sentimientos durante la pandemia. Para ello se usaron los siguientes datos: COVID19-Tweets

Se trabajó en base a tres hitos acumulativos. Los cuales siguieron la siguiente estructura:

  1. Motivacion:
  2. Descripción de base de datos
  3. Exploración de datos
  4. Mejora Hito 1
  5. Propuesta experimental
  6. Referencias
  7. Contribuciones del equipo

Hitos

Tutoriales

About


Languages

Language:HTML 70.3%Language:Jupyter Notebook 29.7%