这里放了一些自己练习爬虫的案例,源码中都有详细的注释。 下面是每个案例的索引,以便查阅。
核心库:requests
BeautifulSoup
- 从图库网上抓取一张图片,并下载下来。
核心库:requests
BeautifulSoup
- 从图库网上抓取一堆图片,并下载到本地某个目录下<br
- 注:注释掉的部分是常规则的抓取图片的方法, 注释外的部分是封装了代码,并且加了多进程的方法
核心库:requests
splinter
- 自动抢票程序,可自动登录12306并实现查询,购买功能(验证码需要人工输入)
- Chromedriver下载地址:https://sites.google.com/a/chromium.org/chromedriver/downloads
- 注意与Chrome浏览器的版本对应
核心库:requests
BeautifulSoup
- 抓取某个网站的内容,并保存到文件中
- 这里抓取的网站的所有内容(包含广告)并保持网站的整体结构,即点击菜单栏会跳转到相应的页面。
核心库:requests
BeautifulSoup
- 抓取某个网站的内容,并保存到文件中。
- 这里去掉了网站的菜单栏和广告,将整站内容保存到一个文件中。
- 有些目标网站限制了单IP的访问次数,这里使用代理IP去访问,保证能抓取完整数据
核心库:requests
Beautiful
- 从西刺抓取代理IP(注意代理IP的类型,如果你要爬的是http网站,则使用类型为 http的代理IP;https亦然)
- 访问
http://ip.chinaz.com/getip.aspx
去测试代理IP的可用性
核心库:pillow
- 生成字母+数字验证图片
- 用随机颜色填充背景,在背景上画上字母或数字,然后再对图像进行模糊,验证码图片就生成了。
核心库:PIL
pytesseract
pytesseract-OCR
- 处理验证码的步骤为:下载验证码图片-> 图片二值化-> 图片降噪 -> 验证码字符串读取
- pytesseract是Python的第三方库, 它需要调用 pytesseract-OCR 引擎来识别图片,所以在代理里要单独设置 tesseract.exe的路径
- OCR引擎需要单独下载安装,下载地址百度查找
核心库: requests
itchat
- 自动回复微信消息的机器人,调用了图灵机器人的API,可以根据接收到的消息自动回复合适的内容,有兴趣的可以玩一玩。
- 图灵机器人网站:
http://www.tuling123.com/
核心库:requests
linecache
rsa
re
base64
- 自动登录微博,并定时发送微博的功能
- 定时每天早上六点,和晚上十点,发微博
- 提前从网络上爬取微博内容及配图,到点直接从文本库及图片库取出内容和配图,发送微博
- 内容每天取一条,图片按数字命名,每天取一张,保证内容和图片不会重复。