Staskaer / python_crawler

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

个人的一些python爬虫学习经历


目前进度:
  1. 常见的网站爬虫(利用User-Agent,referer等简单反爬

  2. 没有加密参数的Ajax

  3. 请求多个页面获取用于post的加密参数的爬虫

  4. 没有验证码的模拟登录和利用ocr进行简单识别的模拟登录

  5. scrapy爬虫(crawl_spider的使用,对内部各个模块的修改和中间键的使用)

  6. 利用selenium的爬虫(滑块验证码的识别)

  7. 简单的代理池搭建和各个请求库的各种代理的使用

  8. 利用selenium渲染加密的Ajax和其他需要js渲染才能获取的数据

  9. 搭建具有不同模块,通过调度器来调度,类似于scrapy的爬虫

  10. scrapy对接selenium

  11. 使用scrapy中item pipeline中的Imagepipeline爬取图片(pixiv中的arcaea图)

  12. scrapy对接splash进行渲染

  13. scrapy中的item loader与crawl 的结合

  14. scrapy对接redis实现分布式爬虫


后续目标
  • 优化代码的逻辑

  • 撰写详细的学习文档

About


Languages

Language:Python 67.6%Language:HTML 31.0%Language:JavaScript 1.4%Language:Dockerfile 0.0%