学习Spark编程的点点滴滴 AHC.scala 基于最小编辑距离的自底向上的对query层次聚类 MinEdit.scala 最小编辑距离 tagURL.scala 基于词频和word2vec的话题主题识别 trainNewsData.scala 大规模数据集下训练word2vec模型 get_data_from_hive.scala 从数据仓库读取4个月搜索引擎的点击数据