9b9387 / douban_crawler

抓取豆瓣小组里某个帖子的回复内容

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

用Scrapy实现一个爬虫程序

Scrapy框架

Scrapy是我今天浏览网页的时候看到有人提到才知道,很早之前就想尝试做一个爬虫工具,刚好拿来用一下。如果自己写很难避免去实现html请求,dom分析,输出数据这些操作,无异于制造轮子。Scrapy解决了这些基础的问题,先写个Demo熟悉一下Scrapy。

定一个小目标

Demo的需求尽量简单,以熟悉Scrapy为主。设计一个爬虫程序,抓去某个豆瓣小组帖子中当前页面的回复内容。

创建项目

scrapy startproject douban

// 根据提示使用模版创建group spider
cd douban
scrapy genspider group group.douban.com

执行之后生成了 douban/douban/spiders/group.py 文件,打开里面的parse方法就是我们需要具体实现爬虫代码的地方。先不着急写代码。

用scrapy shell调试

这个命令可以直接在命令行中进行网页分析,查看结果。尝试爬取一个豆瓣小组的帖子

scrapy shell https://www.douban.com/group/topic/132914779/

返回结果中注意一条信息:

[scrapy.core.engine] DEBUG: Crawled (403) <GET https://www.douban.com/group/topic/132914779/> (referer: None)

返回403,因为豆瓣做了一些爬虫程序的防范措施,需要加一个参数,来模拟是用浏览器在访问豆瓣。

scrapy shell https://www.douban.com/group/topic/132914779/ -s USER_AGENT='Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'

这时候不出意外,返回值应该是200,成功访问到了页面。同时也进入了python的命令行模拟。我们可以在这里执行一些操作。熟悉一下scrapy的API

用浏览器访问,打开开发者工具,查看各个dom和css名字,根据css访问。

response.css('li.comment-item')

打印出了所有的回复帖子的li标签,结果是一个列表。内容太多不列出来了。

接着查看第一个回复的内容,注意::text这个是用来过滤html标签,只显示标签内的内容。

>>> response.css('li.comment-item')[0].css('div.content').css('p::text').get()
u'\u60f3\u4e0a\u5206\u5feb\uff0c\u5c31\u8ddf\u670b\u53cb\u7ec4\u961f\u53bb\u5427\u3002\u3002'

这里显示的unicode编码,显示中文需要额外处理,编码问题先忽略掉。

编写爬虫代码

回到douban/douban/spiders/group.py文件,根据刚才的调试,实现爬虫功能。

def parse(self, response):
    for comment in response.css('li.comment-item'):
        yield {
            'content': comment.css('div.content').css('p::text').get(),
        }

修改start_urls变量为豆瓣帖子的url

start_urls = ['https://www.douban.com/group/topic/132914779/']

执行程序

执行group爬虫,输出结果到data.json

scrapy crawl group -o data.json

和刚才一样返回403,一样需要在douban/settings.py设置USER_AGENT来假装是浏览器访问。

USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'

data.json中已经有数据了,不过编码有问题,现在解决一下输出的json文件是unicode编码的问题,网上查了一圈,乱七八糟的各种方案。最后还是看官网的文档解决的。在douban/settings.py设置

FEED_EXPORT_ENCODING = 'utf-8'

再跑一遍程序,查看data.json

[
{"content": "想上分快,就跟朋友组队去吧。。"},
{"content": "我还在用上古时期的6p 闪退了几次 我卸载了"},
{"content": "想上分快,就跟朋友组队去吧。。"},
{"content": "我有大号,小号练英雄,打上去为了带朋友而已"},
{"content": " 嗯哼。祝好运~"},
{"content": "你可以,补位啊"},
{"content": "一把2个只会法师2个只会射手还不愿意重开你告诉我该补哪个?"},
{"content": "我也是!!!! 准备为了打游戏换手机了!!"},
...
]

看样子是满足之前定制的需求了,翻页抓取也很简单,找到下一页按钮的url,请求这个url再调用一次parse方法。官网也有例子,这里不多说了。

About

抓取豆瓣小组里某个帖子的回复内容


Languages

Language:Python 100.0%