Exercices MapReduce du cours de big data


Mise à jour de la machine virtuelle

wget https://raw.github.com/jfim/bigdata-exercices-mapreduce/master/miseajourvm.sh
chmod +x miseajourvm.sh
sudo ./miseajourvm.sh

Téléchargement des fichiers de données

Les fichiers sont sur R:\H14N\INF-O17 gr.000001\documents

Copie des fichiers de données sur la machine virtuelle

Manipulation des fichiers avec HDFS

Affichage de votre répertoire personnel

hadoop fs -ls /user
Found 3 items
drwxr-xr-x   - bigdata supergroup          0 2014-02-26 01:17 /user/bigdata
drwxrwxr-t   - hive    hive                0 2014-02-08 19:12 /user/hive
drwxrwxr-x   - oozie   oozie               0 2014-02-08 19:14 /user/oozie
hadoop fs -ls /user/bigdata

Copie des fichiers de la machine virtuelle vers HDFS

hadoop fs -mkdir /user/bigdata/ontime
hadoop fs -ls /user/bigdata
Found 1 items
drwxr-xr-x   - bigdata supergroup          0 2014-02-26 01:19 /user/bigdata/ontime

Exécution d'une tâche sur Hadoop

Compilation du projet

cd /data/bigdata-exercices-mapreduce
mvn package
Visualisation de l'exécution de la tâche

La sortie de la tâche

hadoop fs -ls /user/bigdata/output
Found 3 items
-rw-r--r--   3 bigdata supergroup          0 2014-02-26 01:07 /user/bigdata/output/_SUCCESS
drwxr-xr-x   - bigdata supergroup          0 2014-02-26 01:06 /user/bigdata/output/_logs
-rw-r--r--   3 bigdata supergroup         18 2014-02-26 01:07 /user/bigdata/output/part-r-00000
hadoop fs -cat /user/bigdata/output/part-r-00000
nombreDeLignes  26

Votre première tâche MapReduce

Ouverture du projet dans Eclipse

Ajouter le logiciel enfichable M2Eclipse:


Alternativement, vous devez télécharger Maven http://maven.apache.org/ et l'extraire sur votre bureau, puis exécuter

SET PATH=%PATH%;c:\users\jfim\desktop\apache-maven-3.2.1\bin
SET "JAVA_HOME=C:\Program Files (x86)\Java\jdk1.7.0_45"

À partir de ce moment, la commande "mvn" devrait fonctionner. Si tout fonctionne, connectez le lecteur réseau sur une lettre (par exemple Z:) puis exécutez:

cd bigdata-exercices-mapreduce
mvn eclipse:eclipse
mvn -Declipse.workspace=C:\users\jfim\workspace eclipse:configure-workspace

Vous devriez maintenant être capable d'importer le projet Eclipse.


Compilation et exécution


  • Combien de vols par compagnie aerienne?
  • Quelle paire d'aéroports à fait le plus de vols en 2013?
  • Quel avion a le plus volé en 2013? Quel quantité de milles a-t-il volé?
  • En moyenne, quelle compagnie aerienne a le plus de retards?
  • Quel mois est-ce qu'il y a le plus de retards? Quelle heure? Quel jour de la semaine?
  • Quel jour est-ce qu'il y a le plus d'annulations de vols?
  • Est-ce qu'il y a une correlation entre la duree d'un vol et la quantite de retards?
  • Quels conseils donneriez-vous a quelqu'un qui veut eviter d'etre en retard?
  • Selon vous, comment feriez-vous pour joindre deux ensembles de données avec MapReduce?



