CodingPeppa / Spider_XHS

小红书爬虫,小红书主页、详细页爬取(无水印图片、视频、信息)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Spider_XHS

小红书个人主页图片和视频无水印爬取

效果图

image

image

image

image

运行环境

Python环境 NodeJS环境

运行方法:把你想要的id全部放到列表里

下载速度慢(无需登录)(下载用户列表的笔记)
python normal.py
下载速度快(无需登录)(下载用户列表的笔记)
python normal_quickly.py


多用户下载(下载用户列表所有的笔记)(需登录cookie)
python muti-note.py
多笔记下载(下载笔记列表里所有的笔记)(需登录cookie)
python one-note.py

注意事项

本项目仅供学习与交流,侵权必删

关于normal

  1. 如果用户笔记少,推荐使用带有normal的代码,这样不登陆也能爬,不登陆的话小红书只返回前20条笔记,登陆的话返回所有笔记
  2. 含有normal的可登录,可不登录(删掉bro,自行加上cookie的web_session,不加有时候会卡)

关于muti-note和one-note

  1. 这俩必须登录,获取cookie,不然就给几条数据
  2. muti-note处理的是个人主页 https://www.xiaohongshu.com/user/profile/6185ce66000000001000705b
  3. one-note处理的是笔记详细页 https://www.xiaohongshu.com/explore/64d06670000000000800fb4a

other

  1. 如果不想费事,不要改代码,用里面的selenium获取cookies即可,注意不要自己关掉浏览器,也不要点击按钮,你只需要微信扫码,或者输入手机验证码,然后等待即可
  2. 也可以自行将cookies放到目录下cookies.txt中,不要用控制台的document.cookie获取(http only的获取不了),去设置里的应用程序里找,然后把selenium的代码删掉就行
  3. 有问题992822653@qq.com,回复慢可以直接加QQ

About

小红书爬虫,小红书主页、详细页爬取(无水印图片、视频、信息)


Languages

Language:Python 100.0%