tusik / img-crawler

download image automatically by using python3

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

IMAGE CRAWLER

python3

仅为本人的python学习成果

目标测试站点konachan

thread-crawler.py 为多线程版本爬虫

getimage.py为单线程爬虫

请根据自己的需要选择

README-&-thread-crawler.py

  1. 爬取日志输出于同目录out文件

  2. 默认爬到的文件下载于img文件夹

  3. 可修改线程数,默认2个线程(过多的线程将会带来负担)

  4. 默认限制单次运行最大爬取4Gb图片,如需更多请修改上限

  5. 需要设置开始id和结束id

  6. 设置完成首次运行将会生成list文件,删除和改动

  7. 当程序成功运行的时候将会输出

    线程名:图片id:图片名 如果没有显示或者显示错误请检查自身网络

README-&-getimage.py

  1. 爬取日志输出于同目录out文件

  2. 当前count数 可cat count查看

  3. 爬到的文件下载于img文件夹

  4. 默认限制单次运行最大爬取4Gb图片,如需更多请修改上限

  5. 当程序成功运行的时候将会输出

    图片id:图片名 如果没有显示或者显示错误请检查自身网络

  • 默认屏蔽某些关键词(我只想做个好人)
  • 默认排除分辨率小于1300*768的图片

README-&-jsonv.py

  1. 解析json版本爬虫,可降低服务器和本地的负载

  2. 可减少约一半的流量

About

download image automatically by using python3


Languages

Language:Python 100.0%