tusik / img-crawler

download image automatically by using python3

IMAGE CRAWLER

python3

仅为本人的python学习成果

目标测试站点konachan

thread-crawler.py 为多线程版本爬虫

getimage.py为单线程爬虫

请根据自己的需要选择

README-&-thread-crawler.py

爬取日志输出于同目录out文件
默认爬到的文件下载于img文件夹
可修改线程数，默认2个线程（过多的线程将会带来负担）
默认限制单次运行最大爬取4Gb图片，如需更多请修改上限
需要设置开始id和结束id
设置完成首次运行将会生成list文件，删除和改动
当程序成功运行的时候将会输出

线程名:图片id:图片名如果没有显示或者显示错误请检查自身网络

README-&-getimage.py

爬取日志输出于同目录out文件
当前count数可cat count查看
爬到的文件下载于img文件夹
默认限制单次运行最大爬取4Gb图片，如需更多请修改上限
当程序成功运行的时候将会输出

图片id:图片名如果没有显示或者显示错误请检查自身网络

默认屏蔽某些关键词(我只想做个好人)
默认排除分辨率小于1300*768的图片

README-&-jsonv.py

解析json版本爬虫，可降低服务器和本地的负载
可减少约一半的流量

About

download image automatically by using python3

Languages

Language:Python 100.0%