本项目主要用于一些网站的妹子图片爬取,以及某小视频网站的视频、小说,利用工厂模式编写,方便日后扩展。
目前为初级版本,仅仅可以爬取 di81美女网 、mzitu 的图片;001mao的图片、小说、视频(001mao网站的链接不能给出,怕csdn屏蔽,欢迎去github,代码内有链接)。
还有许多需要改进的地方,如免费代理模块未做可扩展处理、mongoDb安全性处理模块。该小项目会不定时更新,欢迎star 详细介绍,请看我的博客:https://blog.csdn.net/linhai1028/article/details/80280674
httpProxy.py 模块爬取网络上的免费代理ip网站,并验证可用后入库,而后进行实时验证。
crawBase.py 工厂模式中的产品模块的基类模块,主要利用requests做请求,lxml做页面分析。
crawMzitu.py 爬取 mzitu 网站的妹子的图片,该网站有反爬虫,解决方式 请求头里添加Reference
crawdi81.py 爬取 di81美女网 的妹子图片
craw001maoPic.y 爬取 001mao 的妹子图片
craw001maoXs.py 爬取 001mao 的小说
craw001maoDy.py 爬取 001mao 的小视频
log.py 做日志输出处理。
xmFactory.py 工厂模式中的工厂模块。
xmCustomer.py 工厂模式中的客户模块。
mongodb主要负责数据库的链接,切换到表明,以及数据库的插入操作,其他操作暂时没有封装。
2.图片展示
安装相关的依赖包,依赖包需求见文末的环境部分 在mongoDb.py处配置数据库用户名和密码后,就可以运行代码了
python xmCustomer.py
- python3.6
- requests2.18
- mongodb2.6
- pymongo3.6
- lxml4.2