jifeilong9 / Autojs_Tyc

思路来源于https://www.v2ex.com/t/621766

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Autojs

思路来源于https://www.v2ex.com/t/621766 天眼查app有一个Authorization值,对于有工商采集需求的公司得会逆向才能爬取|买别人的服务。

思路来源于https://www.v2ex.com/t/621766,简单描述就是Authorization值在有效期可以一直使用。 所以大致思路如下: 1.手机设置代理mitmproxy,autojs脚本控制天眼查app,这样本地app能生成Authorization。 2.然后mitmproxy编写脚本,提取请求头里面的Authorization,放入redis供爬虫调用。 3.贵公司的爬虫就可以跑了,每次去redis取值即可。

思路优点: 1.可以不用逆向就能很顺滑的爬取天眼查 2.加上那个博主说的多开助手,本人测试2个手机可以满足一台爬虫机器每秒并发3的访问频次。 思路缺点: 1.太依赖手机。 2.autojs脚本很垃圾,经常得加载一段时间,也就是sleep,不然提示找不到id。

优化: 1.可以不用考虑脚本错误造成爬虫集群瘫痪得可能性,本脚本成功率100%。 2.建立一个服务端,mitmproxy转发至此。这样达到并不访问天眼查服务器的效果,需要防止对方后台监控Authorization使用次数。

总结: 1.安安静静学逆向,需要时间成本,可也是巨大的技术提升。 2.无论何时,app逆向做爬虫应该是效率最大化的方式。

各位看客老爷,初入爬虫界,学艺不精,只能走歪门邪道,让各位见笑了。

About

思路来源于https://www.v2ex.com/t/621766


Languages

Language:JavaScript 100.0%