Wiederholung / Scrape

大数据应用开发（2022/23）小组作业：Scrape Center - spa6 爬虫程序设计

https://spa6.scrape.center/

JavaScript 逆向爬虫程序设计

北京邮电大学课程大数据应用开发（2022/23）小组作业

题目：Python爬虫案例 Scrape Center - spa6

电影数据网站，数据通过 Ajax 加载，数据接口参数加密且有时间限制，源码经过混淆，适合 JavaScript 逆向分析。

思路

详见报告

学习网站常用数据防护方法（如 JavaScript 的压缩、混淆技术）
分析 https://spa6.scrape.center/ 的加密方式
使用 Hook 找到加密 id；获取详情页 Ajax 的 token
使用 Python 实现详情页爬取

安装

pip install -r requirements.txt

使用

见 Jyputer Notebook 或源码文件夹

参考

Contributors

About

大数据应用开发（2022/23）小组作业：Scrape Center - spa6 爬虫程序设计

https://spa6.scrape.center/

Languages

Language:Jupyter Notebook 94.6%Language:Python 5.4%