jleveau/BigData_Search

V1 
yarn kmean.jar fichier.csv sortie nb_kmean num_colonne 

num_colonne = quelle colonne utiliser pour faire le kmeans (exemple : population). -> doit etre des nombres réels
nb_kmean = nb pivot au debut = nombre de cluster

V2
yarn kmean.jar fichier.csv sortie nb_kmean N num_colonne1 [num_colonne2] [num_colonne3] ...

N -> hauteur

appliquer les Kmeans de manière hierarchique : 
On choisi le nombre de niveau sur lequel on veut decouper
-> hauteur de l'arbre

Objectif : generer 3 fichier 

k0	label
0	Paris = ville avec la population la plus haute				
1	Amsterdam	
2	Bordeaux

k0	k1	label
0	0
0	2
1	0
1	1	
1	2
...

k0	k1	k2	label
0		
1		
2				

Optimisation -> SequenceFile
jleveau / BigData_Search

About

Languages