SCRAPY爬虫实验

mingyan2

mingyan2主要爬取 http://lab.scrapyd.cn 里面的两个页面并保存为html格式，其实就是一个下载的过程，目的很单纯，主要是让诸位理解scrapy是怎样爬起来的，里面需要神马内脏，大家可以下了运行试试！

scrapy初始url的两种写法

此项目爬取 http://lab.scrapyd.cn 里面的一条名言里的：名言内容、作者、标签，注意只是一条数据，然后保存为txt文档，这个练习，主要是学习scrapy css选择器的基本用法，然后结合scrapy shell 进行相应调试

此项目爬取 http://lab.scrapyd.cn 首页的所有名言，也就是列表爬取，主要学习如何使用：

for …… in ……

这个循环方式进行递归爬取，快试试吧！

如果只能用scrpay爬取一页数据，其实和Ctrl+c、Ctrl+v没神马区别，真正拉开差距的是让scrapy自动的爬取多页，本项目寥寥几行代码，就能爬完整个网站，或许到这里你才能对它产生相见恨晚的赶脚！

此实例给大伙展示了Scrapy的灵活之处，我们可以在爬取的时候给蜘蛛喂不同的料，然后爬取不同的数据，比如不同的时间段、不同的标签、不同的域名……这些都是通过Scrapy的arguments实现，详情移步：scrapy参数灵活应用

SCRAPY爬虫实验，主要是一些简单的栗子，让你快速了解scrapy玩法！

Language:Python 100.0%