Staskaer/python_crawler

个人的一些python爬虫学习经历

目前进度：

常见的网站爬虫（利用User-Agent，referer等简单反爬

没有加密参数的Ajax

请求多个页面获取用于post的加密参数的爬虫

没有验证码的模拟登录和利用ocr进行简单识别的模拟登录

scrapy爬虫（crawl_spider的使用，对内部各个模块的修改和中间键的使用）

利用selenium的爬虫（滑块验证码的识别）

简单的代理池搭建和各个请求库的各种代理的使用

利用selenium渲染加密的Ajax和其他需要js渲染才能获取的数据

搭建具有不同模块，通过调度器来调度，类似于scrapy的爬虫

scrapy对接selenium

使用scrapy中item pipeline中的Imagepipeline爬取图片（pixiv中的arcaea图）

scrapy对接splash进行渲染

scrapy中的item loader与crawl 的结合

scrapy对接redis实现分布式爬虫

后续目标

优化代码的逻辑

撰写详细的学习文档

About

Languages

Language:Python 67.6%Language:HTML 31.0%Language:JavaScript 1.4%Language:Dockerfile 0.0%