Starry-Wing / Python_SpiderDesign

python课大作业,网络爬虫设计

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Python_SpiderDesign

python课大作业,网络爬虫设计

需求分析: 1.能根据关键字爬取图片 2.能自定义关键字及关键字的数量 3.能将爬取的图片有序地保存在本地 4.能将不同关键字的图片分别保存在不同目录 5.有详细的输出

设计总结: 1.由于保存图片文件的路径是绝对路径,所以在不同计算机(系统)上测试可能会有问题 2.爬取图片与爬取文本稍有不同,图片需要用二进制信息存储(content) 3.编写爬虫需要了解html的结构格式,以及正则表达式的使用 4.有的网站对爬虫会有所限制,需要用到一些技巧,如代理ip,伪造浏览器,操作系统

About

python课大作业,网络爬虫设计


Languages

Language:Python 100.0%