zhengbigbig / python-crawler

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Python 爬虫学习

  1. urllib库使用

    • urlopen
    • urlretrieve
    • urlencode
    • url解析
    • Requests类
    • ProxyHandler
    • cookie处理
  2. requests库使用

    • get
    • post
    • proxy
    • cookie处理
    • ssl
  3. 数据解析

    • Xpath语法和lxml库
      • 了解并熟练Xpath语法
      • 熟练lxml库基本使用
    • BeautifulSoup4库
    • 正则表达式和re模块
  4. 数据存储

    • JSON文件格式处理
    • CSV文件格式处理
    • Excel文件处理
    • MySQL数据库处理
  5. 多线程爬虫

    • 单线程和多线程
    • 多线程类
    • 生产者与消费者Lock
    • 生产者与消费者Condition
    • Queue线程安全队列
    • 多线程GIL锁
  6. 动态网页爬虫

    • selenium基本使用
    • 行为链
    • 操作cookie
    • 页面等待:显示和隐式
    • 打开多窗口和页面切换
    • 设置代理IP
    • 补充类
    • 12306爬虫
  7. 反爬虫破解

    • 破解JS
    • 验证码破解
    • 字体破解
  8. Scrapy爬虫框架

    • 古诗文爬虫 (普通爬虫,保存txt)
    • 猎云网爬虫 (自动爬虫,异步操作保存数据库)
    • zcool爬虫 (自动爬虫,保存图片至本地)
    • 中间件 (请求头代理,IP代理)
    • 猎聘网 (使用代理爬取反爬网站)
    • 链家爬虫 (分布式爬虫/redis)
    • 简书 (scrapy + selenium)

About


Languages

Language:Python 99.6%Language:HTML 0.4%