yansixing / qth_crawler

教务网爬虫,分为模拟登陆和验证码识别两个模块。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

qth_crawler

教务网爬虫,分为模拟登陆和验证码识别两个部分。

爬虫使用的是urllib和requests库,伪造头文件,保存cookie,发送带密码的post请求。

验证码经过二值化,降噪等等处理后调用Google的OCR模块,简单的验证码识别率70%左右。

效率不高,只有每秒一个请求,请求次数过多服务器还会返回#10060 error,可能是服务器端的反爬虫策略。

About

教务网爬虫,分为模拟登陆和验证码识别两个模块。


Languages

Language:Python 100.0%