derlinchen / spider_website

python爬虫,通过redis进行去重,通过IP动态代理、User-Agent进行反爬虫处理,同时利用Rule进行规则定义并使用Schedule定时器进行定时爬取。三方包:scrapy、schedule

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

python爬虫

  1. 所需环境:redis,mysql

  2. 修改pipelines.py下的redis数据库配置

  3. 修改model包下__init__.py中mysql的数据库配置

  4. 进入spider_website目录后执行python run.py即可执行爬虫

  5. 本项目可以使用python setup.py bdist_egg打包成egg文件

  6. 使用easy_install **.egg --prefix=/path对egg文件进行安装

About

python爬虫,通过redis进行去重,通过IP动态代理、User-Agent进行反爬虫处理,同时利用Rule进行规则定义并使用Schedule定时器进行定时爬取。三方包:scrapy、schedule


Languages

Language:Python 99.9%Language:Batchfile 0.1%