derlinchen / spider_website

python爬虫，通过redis进行去重，通过IP动态代理、User-Agent进行反爬虫处理，同时利用Rule进行规则定义并使用Schedule定时器进行定时爬取。三方包：scrapy、schedule

python爬虫

所需环境：redis,mysql
修改pipelines.py下的redis数据库配置
修改model包下__init__.py中mysql的数据库配置
进入spider_website目录后执行python run.py即可执行爬虫
本项目可以使用python setup.py bdist_egg打包成egg文件
使用easy_install **.egg --prefix=/path对egg文件进行安装

About

python爬虫，通过redis进行去重，通过IP动态代理、User-Agent进行反爬虫处理，同时利用Rule进行规则定义并使用Schedule定时器进行定时爬取。三方包：scrapy、schedule

Languages

Language:Python 99.9%Language:Batchfile 0.1%