DaTeToMe / crawlProject

python爬虫项目合集,从基础到js逆向

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

爬虫项目实战

说明

所有项目均为作者练手分享项目,如遇侵权请联系删除,仅作学习分享,不能进行任何商业活动。

由于程序完成的时间问题,部分项目可能无法复用。

练习笔记见note.txt

此项目将持续更新

基础篇

request篇

  1. 第一个爬虫程序,百度网页
  2. 初始反爬-ua
  3. 认识post请求-- 百度翻译
  4. 豆瓣电影
  5. 肯德基位置查询

解析html以及正则篇

  1. 获取fakeua -- lxml解析
  2. 4k图片爬取 -- lxml以及解决编码错误问题
  3. 58 -- lxml以及分页爬取
  4. bs案例
  5. bs基础
  6. xpath解析
  7. xpath基础
  8. 正则练习
  9. 正则基础
  10. 简历爬取

selenium

  1. 12306模拟登录
  2. damai网
  3. 基础自动操作
  4. 模拟登陆
  5. 动作链和ifream处理
  6. 无头浏览器和反检测

scrapy篇

  1. bossjob一级页面爬取
  2. 双色球
  3. 图片
  4. 阳光政策
  5. yi车数据爬取 -- 带有js逆向,不过是入门级,以及大批量json数据解析
  6. 校花网
  7. 网易新闻
  8. 17k小说爬取

高性能异步爬虫

  1. 认识flask
  2. meinv图片批量爬取
  3. 明星图片爬取
  4. 多任务协程
  5. 线程池基础
  6. 线程池应用

综合案例

  1. 某视频网站 --> m3u8视频下载,解决带密钥以及不带密钥情况,m3u8入门级别以及多线程下载
  2. ins爬虫,对于页面参数提取以及解析json文件
  3. 语言爬虫,利用网络将文本转为语言,支持中英韩三国语言
  4. 验证码相关 -- 某诗文网登录以及图片验证码解决 --- ddddocr
  5. b站综合--检查用户是否给你点赞,拉去消息列表,拉取点赞列表
  6. douyin全站数据爬取,包括视频图片下载,评论爬取,用户信息爬取...

进阶篇

js逆向专题


请求头或响应数据加密

  1. 某天气网站---> 动态js 动态key 动态参数 反debug
  2. 某足球网站 --> 请求体多重加密,加密位置难定位
  3. youdao翻译
  4. fjs公共交易 --> 混淆参数加密
  5. wangyiyun音乐 --> 实现全站数据爬取
  6. 娱乐指数 --> 基础入门

环境检测

  1. redBook x-s环境检测,需要自己把cookie和localstorage放到文件中

wasm加密

  1. 某航空 --> wasm操作内容实现加密解密 请求头参数加密更新 阿里系v2检测 阿里系v3检测(待解决)

浏览器指纹检测

  1. 易九批 --> 首先是加密请求体,其次是tls指纹检测,目前使用第三方库过了主页请求

About

python爬虫项目合集,从基础到js逆向


Languages

Language:JavaScript 99.0%Language:Python 1.0%Language:HTML 0.0%