jiapengcs / DoubanRobot

Simple distributed crawler for Douban User Information.

Home Page:http://jiapengcs.com/2016/02/23/simple-distributed-crawler.html

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

DoubanRobot

Simple distributed crawler for Douban User Information.

依赖库:

  • BeautifulSoup4: $ pip install BeautifulSoup4

  • lxml: $ pip install lxml

  • requests: $ pip install requests

  • pillow: $ pip install pillow

使用:

需设置的内容:

1.登录时login.py需要豆瓣账号:form_email, form_password

self.payload = {
    'form_email': 'example@email.com',
    'form_password': 'password',
    'remember': 'on'
}

2.manager.py中需设置初始任务ID,与worker通信的端口,爬虫延迟时间。

INIT_ID = '130949863'
PORT = 5000
DELAY_TIME = 5

3.worker.py中需设置运行manager的主机地址,通信端口,爬虫延迟时间。

SERVER_ADDR = '127.0.0.1'
PORT = 5000
DELAY_TIME = 5

运行:

一台主机作为控制节点运行manager.py,另外若干台主机作为爬虫节点运行worker.py,也可以在同一台机器上同时运行一个manager进程和若干个worker进程。用户信息、已完成ID、待完成ID、headers和cookies分别保存在当前目录下的info.txt, done.txt, todo.txt, session.txt文件中。

注意 控制好爬虫延迟时间,速度过快会返回403 Forbidden302 Temporarily Moved错误信息甚至封禁IP。

About

Simple distributed crawler for Douban User Information.

http://jiapengcs.com/2016/02/23/simple-distributed-crawler.html


Languages

Language:Python 100.0%