yuercl / mm_crawler

crawl beauty image , Wawawa...

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

mm_crawler

这是一道面试题,😓😓😓

mm_crawler是一个抓取美女网站美女图片的小程序,采用python编写

一些思路,留着备忘吧

  • 需要一个将图片地址保存到本地的一个方法,输入源为Queue的一端,可多线程取,由于图片下载相对较慢
  • 需要一个产生图片url源的方法,用于Queue的输入
  • 将获取图片url的解析方法,为了以后抓取其他的MM图片,将解析url单独出来
  • 当然少不了一个打印帮助内容的方法
  • 当然为了更好个性化,用getopt获取自定义参数值
  • 希望调试的时候输入些信息,print太弱,改称logger
  • 功能还是太弱,如果能顺利分析出url是MM的url就更好了,然后可以用广度或深度优先来爬整个网站

About

crawl beauty image , Wawawa...


Languages

Language:Python 100.0%