ZhangzhiS / jiandan

爬取煎蛋的图片、专题、文章等。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

煎蛋爬虫

  • 2019-03-10

    爬取煎蛋无聊图的最新一页的图片下载到本地,使用了scrapy自带的中间件ImagesPipeline。

    ImagesPipeline的特点:

    • 将下载图片转换成通用的JPG和RGB格式
    • 避免重复下载
    • 缩略图生成
    • 图片大小过滤
  • 2019-03-13

    添加随手拍栏目(与无聊图结构相同) 添加翻页操作

  • 2019-03-25 增加首页的爬虫,进入首页文章,可以选择将文章存入数据库或者写入文件 分析文章内容并对名词,人名,地名词性的词做了统计,生成图云

About

爬取煎蛋的图片、专题、文章等。


Languages

Language:Python 100.0%