carrotshub / ZhiHuSpider

两个关于知乎的爬虫,一个基于关键词搜索,爬取所有搜索的问题以及问题对应的答案和答案的所有评论;另外一个基于第一个爬虫获取的user_seeds,爬取用户相关信息

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

两个关于知乎的爬虫,一个基于关键词搜索,爬取所有搜索的问题以及问题对应的答案和答案的所有评论;另外一个基于第一个爬虫获取的user_seeds,爬取用户相关信息
一):关于项目环境 python3.x ubuntu 16.04 scrapy 1.5 安装适合以上环境的mysql(网上一搜一大堆) 项目中使用的其余包,安装满足以上环境的最新版本即可,由于在项目开发开始之前没有使用anaconda的虚拟环境,导致项目完成后在生成环境txt文件的时候会将base env中 的所有包全部写进requirement中。(ps:这也是以后需要注意的) 
二):项目配置 在完成第一步所有所需环境的安装之后,进行mysql的配置。创建自己的数据库,在setting文件中配置mysql的相关参数。 在数据库中创建表,表设计如下:
	ans_comment
	answer_table
	ask_table
	author_info
	author_seeds
	key_words_table
	question_table
	reply_table
	每个表具体字段见:项目item.py文件中,其中key_words_table(必填)是需要在其中加入的检索的关键词,爬虫以此为种子开始爬取。
配置好以上环境,就可以运行了!

关于该爬虫的说明:
	基于scrapy框架,使用MySQL存储数据,管理种子。


项目还是雏形,很多功能尚未实现,需要各位有兴趣的码友共同改进。
1.知乎登录频繁改版,项目中的login.py已近废掉,所以采取了最为粗暴的方式,直接从浏览器中拿相关参数(有解决办法的可以提交改进~~~)
2.使用redis实现分布式


我的扣扣:1398141580有问题的朋友可以联系或者issue

About

两个关于知乎的爬虫,一个基于关键词搜索,爬取所有搜索的问题以及问题对应的答案和答案的所有评论;另外一个基于第一个爬虫获取的user_seeds,爬取用户相关信息


Languages

Language:Python 100.0%