luyajie / zhihu

知乎采集者

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

一个微型爬虫框架

spider.py 使用 gevent ,没有更新。。 crawler.py 使用 threading。所有的改动都集中在这个文件了。

url 抓取列表在 redis DB 1 里面

倒排索引在 redis DB 2 内,unicode 编码

About

知乎采集者


Languages

Language:Python 99.0%Language:Smarty 0.7%Language:HTML 0.3%