zhaizhch / Crawler

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

爬虫网址:http://wsxy.chinaunicom.cn/learner/job-center

账号:yaomq3

密码:YMq770306@0317

爬虫内容:认证中心——政企创新人才——智网工程师(中级)——中级练习题库——题库

所遇问题:

1.每页最多存在2000条数据,原因不明,必须分页查询数据,共9995条,1000条*10

2.题目每隔一段时间会乱序,所以新建一个字典dict保存queId,循环遍历直到保存的题目总数为9995

3.链接查找位置:F12——netWork——点击按钮

4.网站会因为频繁访问而终止你的访问

About


Languages

Language:Python 100.0%