Beast code in Giters

eric1688's repositories

sphinx

Sphinx for Chinese

Language:C++GPL-2.0133 11 5

friso

High performance chinese tokenizer with both GBK and UTF-8 charset support developed by ANSI C

Language:LexApache-2.01 20

demo_11.11_storm-spark-hadoop

hadoop_storm_spark结合实验的例子，模拟淘宝双11节，根据订单详细信息，汇总出总销售量，各个省份销售排行，以及后期的SQL分析，数据分析，数据挖掘等。 --------大概流程------- 第一阶段（storm实时报表）第二阶段（离线报表）第三阶段（大规模订单即席查询,和多维度查询）第四阶段（数据挖掘和图计算）

Language:Java000

1. 主要分为三个模块，一个爬虫抓取模块，一个是数据处理模块，一个是用户模块。 2. 爬虫抓取模块主要是从直播吧、新浪体育、网易体育上爬取有关足球的新闻和用户关于足球的评论，利用集群HADOOP抓取网页，分析得出URL集，提取特征URL 3. 网页linux脚本过滤得到原始网页，然后二次过滤得到文本，并使用分布式储存。 4. 处理模块主要是根据训练集规则一和规则二，得到分词器，然后对文本进行操作，得出训练结果。 5. 通过特征脚本得到训练结果的特征词分类，然后提取出球队模糊集和球星模糊集。 6. 过滤得到球队精确集和球星精确集，并存入MYSQL数据库。 7. 从数据库中提取球星和球队的信息进行图表分析，并动态显示WIKI信息，调入显示模块中和用户进行交换

Language:Java000

eric1688

eric1688's repositories

sphinx

friso

Merchant

cppjieba

Crawer

demo_11.11_storm-spark-hadoop

Distributed_spider_pku_java

giggle

sphinx-jieba

Sreg

yii2-mini

yincart