wenbochang888 / GdufeInformation

python爬虫:抓取广财所有学生的详细信息

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

广东财经大学全部学生的信息

##2017年4月7日15:13:40

环境:python2.7

小弟第一次写的完整爬虫,放到github,顺便当练练github的手

1:首先坚持可见即可爬(小弟还没有到这种境界)

2: 素拓系统可以看见所有人的学号,姓名,学院,院系,班级信息

3:直接爬就行

4:'grade':'2016' while里面的grade表示年纪. 2016级大概3000页,2015级好像7000多(哭死)

##2017年4月12日13:13:39

昨天无聊的时候再看素拓系统,发觉抓取了很多重复的元素,所以导致了抓取速度十分的慢

然后发觉每个人最少最少都申请了15个素拓左右。所以进行了算法的优化

用一个cnt记录抓到了第几个记录,每到15就取余,然后进行抓取,非15的倍数不进行抓取

然后昨晚试了一下子。大概由原来的20s一页,提高到了3s一页。相当于效率提高了7倍左右。

抓取速率很提高很多。这让我意识到了算法的重要性,所以大家搞好算法啊。

##ps.

1:爬虫效率有点慢,用了几个模块,可用python自带的pip安装

2:直接运行gdufeInformation.py文件就可以了

3:亲测爬一页大概20s(真tm慢)

Image text

Image text

Image text

Image text

Image text

Image text

About

python爬虫:抓取广财所有学生的详细信息


Languages

Language:Python 100.0%