爬取小红书相关评论 注:本代码仅为兴趣爱好探究,请勿进行商业利用或非法研究,负责后果自负,与创作者无关
爬取的数据包括
评论者昵称,id,评论级别,评论内容
先上个图
打开小红书页面,f12大法查看xhr请求,找到对应内容
内容都在comments后面,翻页通过cursor翻页,逻辑如下
next_cursor = json_text['data']['cursor']
if page == 1:
url = 'https://edith.xiaohongshu.com/api/sns/web/v2/comment/page?note_id={}&cursor=&top_comment_id=&image_formats=jpg,webp,avif'.format(note_id)
else:
print(colorama.Fore.GREEN + "[info] 进入下一轮循环")
url = 'https://edith.xiaohongshu.com/api/sns/web/v2/comment/page?note_id={}&cursor={}&top_comment_id=&image_formats=jpg,webp,avif'.format(note_id,next_cursor)
如何确定爬取完成?
这个参数为true就证明可以继续爬取
数据处理过程在这里
如何节约时间并发爬取呢
整体效果如下
完整代码连接放在github上了,有需自取
config文件里面填入自己的cookie
小红书具有反爬机制,因此需要自己寻找对应的note_id进行爬取
进行keyword搜索后f12大法进行获取note_id,建议默认点击最热,这样爬取的评论数才可以足够满足数据爬取的需要