mastanca / datos-tp-1c2015

Compression algorithm based kernel perceptron using Jaccard's similitary

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

WorldDomination-1C2015

======================================================================

ANUNCIOS

======================================================================

IDEAS QUE PARA INCORPORAR LO QUE VAMOS VIENDO AL TP

  • En vez de leer los archivos línea por línea, es recomendable cargarlos completos en memoria y operar ahí.

  • Para aplicar lo que vimos de archivos, podemos intentar separar los reviews de los IDs y calificaciones. Habría que pensar un buen esquema para hacerlo, pero debería ser más eficiente, ya que habría que realizar menos operaciones por línea.

  • Aplicar compresión. Cuando veamos compresión, podríamos comprimir los archivos de datos en el disco. Leer compreso y descomprimir debería ser más rápido que leer más bytes sin compresión de memoria secundaria.

======================================================================

HERRAMIENTAS QUE QUIZÁS SIRVAN

  • Word2Vec: Herramienta de Google, mencionada en Kaggle, útil para el análisis de sentimientos en texto. Valdría la pena investigarla más, aunque el enunciado del TP dice que no es necesario usarla.

  • Filtros Bayesianos Anti-Spam: están en la Wikipedia en inglés. La idea es que uno usa la fórmula de Bayes para entrenar al filtro con spam y con no-spam. Ni lo leí en realidad, solo relojeé un poco. Después lo leo bien y veo que le saco.

======================================================================

INFO ÚTIL

  • En Kaggle hay tutoriales y esas cosas. Podrían resultar útiles.

About

Compression algorithm based kernel perceptron using Jaccard's similitary


Languages

Language:C++ 99.6%Language:C 0.2%Language:CMake 0.2%Language:Makefile 0.0%Language:MATLAB 0.0%