zhengbigbig / python-crawler

Python 爬虫学习

urllib库使用
- urlopen
- urlretrieve
- urlencode
- url解析
- Requests类
- ProxyHandler
- cookie处理
requests库使用
- get
- post
- proxy
- cookie处理
- ssl
数据解析
- Xpath语法和lxml库
  - 了解并熟练Xpath语法
  - 熟练lxml库基本使用
- BeautifulSoup4库
- 正则表达式和re模块
数据存储
- JSON文件格式处理
- CSV文件格式处理
- Excel文件处理
- MySQL数据库处理
多线程爬虫
- 单线程和多线程
- 多线程类
- 生产者与消费者Lock
- 生产者与消费者Condition
- Queue线程安全队列
- 多线程GIL锁
动态网页爬虫
- selenium基本使用
- 行为链
- 操作cookie
- 页面等待：显示和隐式
- 打开多窗口和页面切换
- 设置代理IP
- 补充类
- 12306爬虫
反爬虫破解
- 破解JS
- 验证码破解
- 字体破解
Scrapy爬虫框架
- 古诗文爬虫 (普通爬虫，保存txt)
- 猎云网爬虫 (自动爬虫，异步操作保存数据库)
- zcool爬虫 (自动爬虫，保存图片至本地)
- 中间件 (请求头代理，IP代理)
- 猎聘网 (使用代理爬取反爬网站)
- 链家爬虫 (分布式爬虫/redis)
- 简书 (scrapy + selenium)

About

Languages

Language:Python 99.6%Language:HTML 0.4%