ZHOU 's repositories
medusa
(2015)(Python)网络服务、爬虫、索引、搜索(基于 django、scrapy、elasticsearch、postgresql、redis)
iScript
各种脚本 -- 关于 虾米 xiami.com, 百度网盘 pan.baidu.com, 115网盘 115.com, 网易音乐 music.163.com, 百度音乐 music.baidu.com, 360网盘/云盘 yunpan.cn, 视频解析 flvxz.com, bt torrent ↔ magnet, ed2k 搜索, tumblr 图片下载, unzip
autograd
Efficiently computes derivatives of numpy code.
newspaper
News, full-text, and article metadata extraction in Python 3 good
machine_learning-1
机器学习笔记,来源于:李航的《统计学习方法》 周志华的《机器学习》 Peter Harrington 的《机器学习实战》 以及Python的 Scikit-Learn 开源库。
NewsSpider
爬取今日头条,网易,腾讯等新闻,并建立简单的搜索引擎
WechatSogou
基于搜狗微信搜索的微信公众号爬虫接口
CoolplaySpark
酷玩 Spark: Spark 源代码解析、Spark 类库等
heritrix3
Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.
Google-ML-Recipes-Chs-sub-and-code
Google出品的机器学习入门视频的中文字幕翻译与示例代码
kindo
a lightweight automated deployment tool developed with python
flume-json-interceptor
Apache flume interceptor which tracks the json and pass it different kafka queue based on json input
keepcrawler
基于WebMagic的Keep爬虫
mysql-sink
flume mysql sink
EasySearchEngine-V2.0
基于今日哈工大新闻的简易搜索引擎v2.0good
distributed_systems_readings
a list of papers, conferences, books, mooc, Q&A and other stuffs for distributed systems
my_blog
多个进程 python
nutcher
nutcher是中文的nutch文档,包含nutch的配置和源码解析,持续更新中。
flume-mysql-sink
get kafka events in mysql
Scrapy-1
Scrapy 框架爬取亚马逊书籍信息,保存到mysql数据库。
ppd_code
拍拍贷 算法比赛
webmagic
A scalable web crawler framework.
SimpleSearchEngine
网络数据挖掘作业,简单搜索引擎
SparkStreaming_Crawler_Redis
use pyspark to process data from web crawler and pass data through redis
zufang
Douban rental data search engine(豆瓣租房搜索引擎)
DigWebForChemNoun
Dig The Web For Chemstry Noun. This is for education purpose
SpiderIndex
简单的搜索引擎,包括爬虫、分词(含pagerank)两部分
MysqlToElasticsearch
用于分库分表,表结构完全相同情况下从Mysql数据到导入数据到Elasticsearch搜索引擎。