SQRPI / UncleNoWay-Spider

叔叔不约(unclenoway.com)聊天图片的多线程爬虫脚本

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

UncleNoWay-Spider

叔叔不约(unclenoway.com)聊天图片的多线程爬虫脚本

这个网站的图片使用的是随机明文链接,生成方法似乎是时间戳加上随机数,存在一个七牛云上,网址格式为

http://7xpsm9.com1.z0.glb.clouddn.com/fxxxxxxxxxxxx?imageslim ,xxxxxxxxxxxx是一个十进制数字。

我们用遍历的方法爬取服务器上的图片,现在的程序在阿里的1G CPU/1Mbps服务器上运行60线程,大概是50万页面/h,其中只有几个页面是有图片返回的。

使用方法

python3 uncle.py [-t int] [-l int]

-t 线程数 现在的版本是我在本地(Ubuntu 16.04)可以运行的脚本,大概100多个线程能跑满我的i5-4200M。程序在服务器测试了一天60线程没报错,大概爬下不到100张图片。

-l 每个线程的页面数,默认是遍历1到10 000 000 000

P.S.

  1. 如果在服务器使用,应该是可以删除程序中带有注释的几行,原因不明。

  2. 程序很短,大概十分钟就能看完,有兴趣可以自己去改。

  3. 有的图片网址是?imageslim=,原因不明,疑似与七牛的图片压缩算法有关。

About

叔叔不约(unclenoway.com)聊天图片的多线程爬虫脚本


Languages

Language:Python 100.0%