corpredit

crawler of the campany redit infomation

预计目标：爬取信用信息公示系统中指定企业的信用相关信息

实际目标：绕过反扒，同时结合requests包和cookie信息进一步进行请求，从而获得相关信息。

反爬系统：加速乐+极验验证码（滑动或文字点击）

主要使用包：selenium,chromdriver,requests,cv2,numpy,PIL,lxml

思路：

1、请求2次加速乐验证网址，第一遍获取gt和challenge的cookie，第二遍带cookie访问。

2、请求首页网址。

3、定位输入框，输入关键字查询。

4、定位验证框，根据验证码类型确定选用点击验证程序还是滑动验证程序。

5、如果是点击验证程序，将其验证框截图发送至打码平台（此处选用超级鹰）。

6、如果是滑动验证程序，则自己编写程序操控鼠标拖动破解。

7、破解失败的化自动重新破解，直至破解成功或者破解失效直接退出。

8、破解成功后，保存查询结果，同时保存cookie。

9、解析查询结果页面，提取出每一条结果的网址。

10、使用request，通过添加cookies，实现模拟请求每一条结果页面。

11、解析最终结果页面，获取基本信息。

备注：

1、本文中的程序仅演示获取部分数据，获取完整数据及存储不是本程序重点程序重点在如何设计验证过程中出现的各种问题及其应对措施。

2、本程序有比较详细的程序解释信息，方便阅读。

About

国家企业信用信息官网爬虫，未获取全部企业信息，重点在设计反爬思路

Language:Python 100.0%