使用scrpay框架, 起始页面为: https://www.jd.com/allSort.aspx 进行商品分类抓取
获取分类链接的源码后分析出每页包含的商品url和下一页的url
再通过判断是否有下一页的url来结束该分类的爬取
对每一个商品都进行抓取,获得所需要的信息。
[商品名,价格,商品ID,描述,总评价数,好评,中评,差评]
对每个商品的评论进行抓取 评论为动态加载,返回格式为json,解析即可
对每个商品的信息通过pipeline保存入MongoDB
在middleware中给每个request请求随机一个ua
在setting中设置最大线程数、DOWNLOAD_DELAY