mquezada / uchile-cc5206

Curso Introducción a la Minería de Datos [DCC UChile]

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Introducción a la Minería de Datos

Curso DCC UChile semestre Primavera 2017

Fechas de Laboratorios

  • Exploración y Visualización: 7 y 11 de agosto
  • Clasificación: 28 de agosto y 1 de septiembre
  • Clustering: 29 de septiembre y 2 de octubre
  • Reglas de Asociación: 23 y 30 de octubre

El resto de las fechas se encuentra en el calendario en U-Cursos (link)

Tutoriales

Proyectos

La siguiente es una lista de proyectos sugeridos para el curso. Las fechas de las presentaciones y los entregables se encuentra en U-Cursos.

Proyectos sugeridos

  • Fairness & Bias (Data Science for Social Good): Un nuevo problema surge con el uso de Machine Learning y Data Mining en contextos sociales, como lo es el sesgo y la discriminación. Esto sugiere encontrar formas de crear modelos que permitan tratar a distintos grupos de manera "justa", pero la definición de justicia es compleja y los problemas se arrastran desde la generación de los datos, la interpretación de éstos y de los modelos, y de cómo repercuten en el futuro. Por ejemplo, un caso emblemático en Estados Unidos fue el de una empresa que ofrecía una predicción de riesgo de criminales por reincidir, y este puntaje es usado por jueces para ajustar las penas. Se observó que este puntaje era asignado de forma desequilibrada a distintos grupos raciales o étnicos. El objetivo de este proyecto es identificar estos sesgos y encontrar formas de disminuirlos, o concluir que no existe tal solución.

  • Proceso Constituyente Chileno: El portal de datos del Gobierno de Chile liberó la información de las Actas de Encuentros Locales Autoconvocados del Proceso Constituyente Chileno del 2016. La información se encuentra pública y ya se ha realizado trabajos para automatizar algunas tareas de clasificación de los datos.

  • Caracterizar y clasificar problemas de Programación Competitiva: Sitios como http://codeforces.com, http://www.spoj.com, http://a2oj.com, o http://uhunt.felix-halim.net, entre otros, son repositorios de problemas de programación para competencias como la ACM-ICPC, la IEEExtreme, Google Code Jam, etc. Una aplicación interesante consiste en caracterizar los problemas, dadas las categorías (muchos de ellos están etiquetados con tags, o con los comentarios de los usuarios), clasificar un problema en sus categorías, o crear un "recomendador" de problemas de cierta dificultad y/o tema. Existen muchas clasificaciones de problemas, ya sea en los jueces online (como los referenciados anteriormente), o por usuarios que resuelven estos problemas (en blogs, github, etc.).

Otros temas sugeridos

  • Ranking y clasificación de preguntas/respuestas en Yahoo Answers (pedir a José Miguel los datos)
  • Juegos Olímpicos 2016 en Twitter (español, inglés y portugués) (pedir a Mauricio los datos)
  • Reacciones en Twitter ante la sexta temporada de Game of Thrones (pedir a Mauricio los datos)
  • Analizar comentarios a artículos de Emol (pedir a Mauricio los datos)
  • Dataset de reviews de cervezas (pedir a José Miguel los datos)
  • Dataset de reviews de Amazon (pedir a José Miguel los datos)

Otros datasets disponibles

Proyectos pasados

Otoño 2016

Primavera 2016

About

Curso Introducción a la Minería de Datos [DCC UChile]


Languages

Language:Jupyter Notebook 100.0%