wliustc / jd_All_Item

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

京东商品全站爬虫

1、分类抓取

使用scrpay框架, 起始页面为: https://www.jd.com/allSort.aspx 进行商品分类抓取

2、商品抓取

获取分类链接的源码后分析出每页包含的商品url和下一页的url
再通过判断是否有下一页的url来结束该分类的爬取 

3、商品详情

对每一个商品都进行抓取,获得所需要的信息。
[商品名,价格,商品ID,描述,总评价数,好评,中评,差评]

4、评论抓取

对每个商品的评论进行抓取 评论为动态加载,返回格式为json,解析即可

5、数据入库

对每个商品的信息通过pipeline保存入MongoDB

6、防封措施

 在middleware中给每个request请求随机一个ua
 在setting中设置最大线程数、DOWNLOAD_DELAY

About


Languages

Language:Python 100.0%