gliderkong / baidu-music-spider

百度mp3全站爬虫

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

百度音乐爬虫

通过:

$ python dog.py

启动爬虫,没有设置时间间隔,所以会被百度k掉[经测试即使设置时间间隔为10秒也会被百度k掉], 大概30分钟会被k一次,一次k大概20分钟,所以dog.py实现了在被k的时候[百度会302到输入验证码],会 自动停止抓取,10分钟后自动尝试启动爬虫,如果还是302那么再继续停止10分钟,一般过 一会解禁了就可以抓取了。

使用redis支持断点续传。

About

百度mp3全站爬虫


Languages

Language:Python 100.0%