spider_plus_fw 使用说明

基于 scrapy 开发的 python 分布式爬虫框架, 实现了 scrapy 的基本功能, 包括

三个内置对象：

请求对象(Request) 响应对象(Response) 数据对象(Item)

构建请求信息(初始的)，也就是生成请求对象(Request) 解析响应对象，返回数据对象(Item)或者新的请求对象(Request)

缓存请求对象(Request)，并为下载器提供请求对象，实现请求的调度对请求对象进行去重判断

根据请求对象(Request)，发起HTTP、HTTPS网络请求，拿到HTTP、HTTPS响应，构建响应对象(Response)并返回

负责处理数据对象(Item)

负责驱动各大组件，通过调用各自对外提供的API接口，实现它们之间的交互和协作提供整个框架的启动入口

 爬虫中间件
     对请求对象和数据对象进行预处理
 下载器中间件
     对请求对象和响应对象进行预处理

见 spider_project 文件夹

scrapy_plus, spider_plus, 仿 scrapy 爬虫框架

Language:Python 100.0%