Wiederholung / Scrape

大数据应用开发(2022/23) 小组作业:Scrape Center - spa6 爬虫程序设计

Home Page:https://spa6.scrape.center/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

JavaScript 逆向爬虫程序设计

北京邮电大学课程 大数据应用开发(2022/23) 小组作业

题目:Python爬虫案例 Scrape Center - spa6

电影数据网站,数据通过 Ajax 加载,数据接口参数加密且有时间限制,源码经过混淆,适合 JavaScript 逆向分析。

思路

详见报告

  1. 学习网站常用数据防护方法(如 JavaScript 的压缩、混淆技术)
  2. 分析 https://spa6.scrape.center/ 的加密方式
  3. 使用 Hook 找到加密 id;获取详情页 Ajax 的 token
  4. 使用 Python 实现详情页爬取

安装

pip install -r requirements.txt

使用

Jyputer Notebook源码文件夹

参考

  1. Python3WebSpider/ScrapeSpa6: Spider for https://spa6.scrape.center (github.com)
  2. 爬虫学习-Scrape Center闯关(spa4,spa5,spa6)_spa6.scrape.center_鸣蜩十四的博客-CSDN博客
  3. 新兴爬虫利器 Playwright 的基本用法 | 静觅 (cuiqingcai.com)

Contributors

About

大数据应用开发(2022/23) 小组作业:Scrape Center - spa6 爬虫程序设计

https://spa6.scrape.center/


Languages

Language:Jupyter Notebook 94.6%Language:Python 5.4%