yangye230147961 / meitulu_pachong

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Python

爬虫

最近学正则表达式,刚好知道这个网站美图录,就做了个爬虫拿来练练手,说一说遇到的问题

一 404问题

问题:

由于图片显示页面是分页的,每一页展示5张图片,为了方便没有每次去获取下一页链接,而是使用了拼接字符串的形式,本以为遇到不存在的页面会抛出异常,测试了下,结果当网站遇到404时会直接跳转推荐页,于是requests还能正常返回数据

解决方法:

requests提供了一个req_object.status_code参数,用于返回页面状态码,判断一下这个参数为404就停止生成链接

二 文件写入问题

问题:

写入图片文件,图片无法正常显示

解决方法:

requests提供了img.content参数,用于将接受到的信息转换为二进制,然后在文件写入时,写入模式为"wb",以二进制方式写入

三反爬策略

问题:

爬取图片时发现图片会返回403(禁止访问资源),原因是网站做了防盗链处理,非本站访问图片都会返回403

解决方法:

在获取图片时添加headers请求头,在请求头中添加

'Referer':'https://m.meitulu.com/item/1.html' 将Referer 值设置为本站的图片展示页链接,这样服务器会认为请求来自本站页面,返回信息就会正常

美图录爬虫

About


Languages

Language:Python 100.0%