DoubanRobot

Simple distributed crawler for Douban User Information.

依赖库：

BeautifulSoup4: $ pip install BeautifulSoup4
lxml: $ pip install lxml
requests: $ pip install requests
pillow: $ pip install pillow

使用：

需设置的内容：

1.登录时login.py需要豆瓣账号：form_email, form_password

self.payload = {
    'form_email': 'example@email.com',
    'form_password': 'password',
    'remember': 'on'
}

2.manager.py中需设置初始任务ID，与worker通信的端口，爬虫延迟时间。

INIT_ID = '130949863'
PORT = 5000
DELAY_TIME = 5

3.worker.py中需设置运行manager的主机地址，通信端口，爬虫延迟时间。

SERVER_ADDR = '127.0.0.1'
PORT = 5000
DELAY_TIME = 5

运行：

一台主机作为控制节点运行manager.py，另外若干台主机作为爬虫节点运行worker.py，也可以在同一台机器上同时运行一个manager进程和若干个worker进程。用户信息、已完成ID、待完成ID、headers和cookies分别保存在当前目录下的info.txt, done.txt, todo.txt, session.txt文件中。

注意控制好爬虫延迟时间，速度过快会返回403 Forbidden、302 Temporarily Moved错误信息甚至封禁IP。

About

Simple distributed crawler for Douban User Information.

http://jiapengcs.com/2016/02/23/simple-distributed-crawler.html

Languages

Language:Python 100.0%