BenaventC / DataScienceLecture

Cours de data science

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

confiance

Le syllabus

Ceci est mon cours de "data science", adapté à l'environnement r. On y trouvera les éléments des différents chapitres. L'ensemble des scripts (.rmd) et des données(.drs ou *.csv) sont inclus dans ce repository, sauf si le lien renvoie à un autre repository ( et on les retrouve dans ce dernier)

  • Chapitre 1 : une présentation PPT d'introduction à l'environnement r
  • Chapitre 2 : prise en main avec un petit jeu de données et toute la panoplie des techniques de base.
  • Chapitre 3 - Dataviz avec ggplot : On apprend à y manipuler tidyverse et ggplot, c'est indispensable avant de regarder les modèles.
  • Chapitre 4 - Corrélations et régressions reprendre les bases dans l'esprit de r et avec un peu de sophistication
  • Chapitre 5 - Analyse factorielle, MDS et clustering : pour revenir à la bonne époque de l'analyse de données et découvrir de nouvelles techniques (Tsne,LSA,..)
  • Chapitre 6 - Analyse des réseaux sociaux : on jouera avec l'API de twitter et l'idée de qui est proche de qui.
  • Chapitre 7 - Arbres de décisions et machine learning on y verra comment une idée sexagénaire est devenue un modèle emblématique du machine learning. C'est plus que de la technique, mais de l'histoire des sciences
  • Chapitre 8 - Un peu de NLP. On commencera par lire cette synthèse et on jettera un coup d'oeil au projet Polynésie ou à celui AirBnb. Pour une application de Word2vec le cas Fitness est intéressant.

Les sets de données :

  • France allemagne 2002-2018 (extrait de l'ESS) : le fichier mastermoi.rds dans ce repository
  • Fitness

Book de référence

About

Cours de data science

License:GNU General Public License v3.0


Languages

Language:HTML 100.0%