-
urllib库使用
- urlopen
- urlretrieve
- urlencode
- url解析
- Requests类
- ProxyHandler
- cookie处理
-
requests库使用
- get
- post
- proxy
- cookie处理
- ssl
-
数据解析
- Xpath语法和lxml库
- 了解并熟练Xpath语法
- 熟练lxml库基本使用
- BeautifulSoup4库
- 正则表达式和re模块
- Xpath语法和lxml库
-
数据存储
- JSON文件格式处理
- CSV文件格式处理
- Excel文件处理
- MySQL数据库处理
-
多线程爬虫
- 单线程和多线程
- 多线程类
- 生产者与消费者Lock
- 生产者与消费者Condition
- Queue线程安全队列
- 多线程GIL锁
-
动态网页爬虫
- selenium基本使用
- 行为链
- 操作cookie
- 页面等待:显示和隐式
- 打开多窗口和页面切换
- 设置代理IP
- 补充类
- 12306爬虫
-
反爬虫破解
- 破解JS
- 验证码破解
- 字体破解
-
Scrapy爬虫框架
- 古诗文爬虫 (普通爬虫,保存txt)
- 猎云网爬虫 (自动爬虫,异步操作保存数据库)
- zcool爬虫 (自动爬虫,保存图片至本地)
- 中间件 (请求头代理,IP代理)
- 猎聘网 (使用代理爬取反爬网站)
- 链家爬虫 (分布式爬虫/redis)
- 简书 (scrapy + selenium)