hk20088 / spider

Python爬虫案例

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

前言

这里放了一些自己练习爬虫的案例,源码中都有详细的注释。 下面是每个案例的索引,以便查阅。

day1

核心库:requests BeautifulSoup

  • 从图库网上抓取一张图片,并下载下来。

day2

核心库:requests BeautifulSoup

  • 从图库网上抓取一堆图片,并下载到本地某个目录下<br
  • 注:注释掉的部分是常规则的抓取图片的方法, 注释外的部分是封装了代码,并且加了多进程的方法

day3

核心库:requests splinter

day4

核心库:requests BeautifulSoup

  • 抓取某个网站的内容,并保存到文件中
  • 这里抓取的网站的所有内容(包含广告)并保持网站的整体结构,即点击菜单栏会跳转到相应的页面。

day5

核心库:requests BeautifulSoup

  • 抓取某个网站的内容,并保存到文件中。
  • 这里去掉了网站的菜单栏和广告,将整站内容保存到一个文件中。
  • 有些目标网站限制了单IP的访问次数,这里使用代理IP去访问,保证能抓取完整数据

day6

核心库:requests Beautiful

  • 从西刺抓取代理IP(注意代理IP的类型,如果你要爬的是http网站,则使用类型为 http的代理IP;https亦然)
  • 访问 http://ip.chinaz.com/getip.aspx 去测试代理IP的可用性

day7

核心库:pillow

  • 生成字母+数字验证图片
  • 用随机颜色填充背景,在背景上画上字母或数字,然后再对图像进行模糊,验证码图片就生成了。

day8

核心库:PIL pytesseract pytesseract-OCR

  • 处理验证码的步骤为:下载验证码图片-> 图片二值化-> 图片降噪 -> 验证码字符串读取
  • pytesseract是Python的第三方库, 它需要调用 pytesseract-OCR 引擎来识别图片,所以在代理里要单独设置 tesseract.exe的路径
  • OCR引擎需要单独下载安装,下载地址百度查找

day9

核心库: requests itchat

  • 自动回复微信消息的机器人,调用了图灵机器人的API,可以根据接收到的消息自动回复合适的内容,有兴趣的可以玩一玩。
  • 图灵机器人网站:http://www.tuling123.com/

day10

核心库:requests linecache rsa re base64

  • 自动登录微博,并定时发送微博的功能
  • 定时每天早上六点,和晚上十点,发微博
  • 提前从网络上爬取微博内容及配图,到点直接从文本库及图片库取出内容和配图,发送微博
  • 内容每天取一条,图片按数字命名,每天取一张,保证内容和图片不会重复。

About

Python爬虫案例


Languages

Language:Python 100.0%