eric1688's repositories

sphinx

Sphinx for Chinese

Language:C++License:GPL-2.0Stargazers:133Issues:11Issues:5

friso

High performance chinese tokenizer with both GBK and UTF-8 charset support developed by ANSI C

Language:LexLicense:Apache-2.0Stargazers:1Issues:2Issues:0

Merchant

商户推荐算法demo。仅仅够参考

Language:JavaStargazers:1Issues:3Issues:0

cppjieba

"结巴"中文分词的C++版本

Language:C++Stargazers:0Issues:2Issues:0

Crawer

各大电商网站数据抓取分析

Language:HTMLLicense:MITStargazers:0Issues:0Issues:0

demo_11.11_storm-spark-hadoop

hadoop_storm_spark结合实验的例子,模拟淘宝双11节,根据订单详细信息,汇总出总销售量,各个省份销售排行,以及后期的SQL分析,数据分析,数据挖掘等。 --------大概流程------- 第一阶段(storm实时报表) 第二阶段(离线报表)第三阶段(大规模订单即席查询,和多维度查询) 第四阶段(数据挖掘和图计算)

Language:JavaStargazers:0Issues:0Issues:0

Distributed_spider_pku_java

1. 主要分为三个模块,一个爬虫抓取模块,一个是数据处理模块,一个是用户模块。 2. 爬虫抓取模块主要是从直播吧、新浪体育、网易体育上爬取有关足球的新闻和用户关于足球的评论,利用集群HADOOP抓取网页,分析得出URL集,提取特征URL 3. 网页linux脚本过滤得到原始网页,然后二次过滤得到文本,并使用分布式储存。 4. 处理模块主要是根据训练集规则一和规则二,得到分词器,然后对文本进行操作,得出训练结果。 5. 通过特征脚本得到训练结果的特征词分类,然后提取出球队模糊集和球星模糊集。 6. 过滤得到球队精确集和球星精确集,并存入MYSQL数据库。 7. 从数据库中提取球星和球队的信息进行图表分析,并动态显示WIKI信息,调入显示模块中和用户进行交换

Language:JavaStargazers:0Issues:0Issues:0

giggle

Giggle是一个开源的淘宝商家展示产品的社区。

Language:RubyLicense:MITStargazers:0Issues:2Issues:0

sphinx-jieba

Sphinx search server

Language:C++License:GPL-2.0Stargazers:0Issues:0Issues:0

Sreg

Sreg可对使用者通过输入email、phone、username的返回用户注册的所有互联网护照信息。

Language:HTMLLicense:MITStargazers:0Issues:2Issues:0
Language:PHPStargazers:0Issues:2Issues:0

yincart

yincart is a online shop system which base on yiiframework

Language:JavaScriptStargazers:0Issues:1Issues:0