pqok / spider_collection

python爬虫,目前库存:网易云音乐歌曲爬取,B站视频爬取,知乎问答爬取,壁纸爬取,xvideos视频爬取,有声书爬取,微博爬虫,安居客信息爬取+数据可视化,哔哩哔哩视频封面提取器,ip代理池封装,知乎百万级用户爬虫+数据分析

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Git-爬虫

这个库主要用来装一些平时用来学习或者搞着玩的爬虫,目前有用Scrapy框架写的,也有用BeautifulSoup+requests写的,未来可能还会有涉及到java等其他语言的爬虫代码。

目前库存项目有:

1.b站相关

1.1 一个B站视频爬取spider(Scrapy+you-get)

1.2 一个B站视频封面提取器(requests+json+re+parsel+os+yaml+Threading)

2.知乎相关

2.1 一个知乎问答多线程爬虫(requests+json+re+threading)——已加入ip代理池

2.2 一个知乎用户数据爬虫+数据清洗+数据分析(requests+json+parsel+yaml+threading+pandas)——已加入ip代理池

3.微博相关

3.1 一个微博个人信息爬虫(requests+os+parsel+threading+re+random+time+json+pandas)——已加入ip代理池

4.刚需相关

4.1 一个xvideos视频爬虫(requests+scrapy+json+parsel+cookiejar+threading)

5.其他类型

5.1 一个安居客武汉租房信息爬虫+数据清洗+分析+数据可视化(requests+pandas+parsel+matplotlib)——已加入ip代理池

5.2 一个有声小说音频爬虫(requests+os+parsel+threading+mongodb+re)

5.3 一个网易云音乐的歌单下载程序(BeautifulSoup+request)

5.4 一个壁纸网站的爬图spider(Scrapy)

5.5 一个答案网的学习强国的答案spider+结果文档(Scrapy)

欢迎大家在issue中提出一些好玩的爬虫想法,我会根据情况去尝试实现并及时通知的才不是因为莫得灵感了,同时也欢迎大家提出宝贵的意见。

star可以持续追更呦

fork可以一起做有意思的东西呦

代理池

  1. 这个库里所有的爬虫都是使用的这个项目提供的代理池,强烈安利大家去star,大佬们维护的这个项目非常棒,提供了一个十分可靠得代理池接口,调用方便,搭建简单,如果有需求可以自己组一个服务器,把这个项目放到上面24小时更新代理呦~,一起来感受白嫖的快乐~~

  2. 上面大佬们已经给出了十分方便的方便调用的代理接口,而我自己又根据自己的需求对这些接口进行了进一步的封装,添加了一些细节,这里也会直接放到这个库里面供大家参考,在这里我会说明具体的使用方法。

  3. 后续我会渐渐将这个库里面需要用到代理池来进行反爬的项目都渐渐的更新为代理爬取的,至于代理的具体使用方法就不在每个项目的子目录里进行说明了。大家直接参考这里即可。

鸣谢

在这里谢过所有我看过的教学视频,网站。

不定时更新ing.........

About

python爬虫,目前库存:网易云音乐歌曲爬取,B站视频爬取,知乎问答爬取,壁纸爬取,xvideos视频爬取,有声书爬取,微博爬虫,安居客信息爬取+数据可视化,哔哩哔哩视频封面提取器,ip代理池封装,知乎百万级用户爬虫+数据分析

License:MIT License


Languages

Language:Python 100.0%