miaoyongbin / Anti-Anti-Spider-1

越来越多的网站具有反爬虫特性,有的用图片隐藏关键数据,有的使用反人类的验证码,建立反反爬虫的代码仓库,通过与不同特性的网站做斗争(无恶意)提高技术。(欢迎提交难以采集的网站)

Home Page:https://www.urlteam.org

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Anti-Anti-Spider

2016-10-24

仓库网址位于https://github.com/luyishisi/Anti-Anti-Spider 欢迎stat

本项目由URLTEAM维护

作者博客 https://www.urlteam.org

项目简介: 运用请求伪造,浏览器伪造,浏览器自动化,图像处理,ip处理等方式进行反爬虫技术的通用化使用。 为以后的采集任务快速开展留下基础代码。 如今项目会包含多项技术的样例代码.

项目起因

本身是想做一个反爬虫的技术攻关站点,如果在总结诸多技术中发觉可以将反反爬虫技术直接保留与代码中。 在之后采集需要时能快速有效的测试该站点具有怎样的反爬特性,并且可以快速的进行代码复用

你可以做什么: 2:提交你觉得难以采集的网站 联系方式: a83533774@gmail.com

项目结构树:

https://github.com/luyishisi/Anti-Anti-Spider/blob/master/tree.txt

About

越来越多的网站具有反爬虫特性,有的用图片隐藏关键数据,有的使用反人类的验证码,建立反反爬虫的代码仓库,通过与不同特性的网站做斗争(无恶意)提高技术。(欢迎提交难以采集的网站)

https://www.urlteam.org


Languages

Language:HTML 76.8%Language:Python 22.2%Language:JavaScript 0.8%Language:Shell 0.1%