lronLin / knowledge

python学习之路

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

知识库

知识库,总结在项目中实际使用的git命令,docker部署,mongodb,mysql等知识点

git知识库

docker知识库

mysql数据库知识库

redis知识库

mongodb知识库

PEP 8风格指南

  • [风格指南](PEP 8风格指南.md)

Django知识库

Flask知识库

爬虫

  • [第一天:爬虫]

    - 概念:爬虫的由来/用来做什么
    - 数据采集与分析:urllib/requests/bs4/mongodb/mysql/redis等
    - 请求头-反爬虫:User-Agent,Accept,Accept-Language等
    - 百度搜索:中文的编码解码
    - ssl: ssl认证
    - 应用案例1:urllib获取百度首页源代码,其中User-Agent的使用
    - 应用案例2:爬去智联上某工作某地点的岗位个数
    - 作业1:爬取智联上某工作某地点的工作名称,公司等信息
    - 作业2:爬取格言网(https://www.geyanw.com/)上的某一个模块的名言警句
    - 作业3:爬取搜狗图片中的新垣结衣的图片
    
  • [第二天:数据采集]

    - 爬取工具:requests使用、bs4使用、urllib使用
    - xpath语法、re正则表达式语法
    - 应用案例1:获取豆瓣电影中动态加载电影资源信息
    - 应用案例2:爬取知乎发现里面的提问的链接数,和链接地址
    
  • [第三天:多线程爬虫]

    - 概念:线程、进程、同步、异步、并发、阻塞、非阻塞、并发、并行
    - 进程、线程概念:多线程定义,守护线程,线程启动
    - 线程锁
    - 应用案例1:I/O密集型,计算密集型的单线程多线程对比
    
  • [第四天:协程/数据持久化]

    - 迭代器、生成器的原理概念、斐波那契的实现
    - 协程的概念,原理,生产者-消费者的实现
    - 数据持久化,redis安装配置、缓存,mongodb安装配置、语法、缓存
    
  • [第五天:动态解析]

     - 动态内容分析: 什么是动态内容,分析豆瓣的动态内容加载
     - javascript逆向,selenium自动化测试框架
    
  • [第六天:验证]

    - 模拟登陆:请求url分析,请求参数分析,模拟登陆状态保持
    
    - form模拟登陆、验证码
    
  • [第七天--第九天]

    - scrapy框架组件,处理流程,数据持久化
    - scrapy项目环境搭建,创建项目命令,执行启动操作,各相关文件的处理逻辑
    - 
    - 案例1:爬取起点小说网的小说分类,以及分类的url
    - 案例2:爬取豆瓣电影的信息,并使用mongodb持久化
    - 
    
  • [第十天:综合案例]

About

python学习之路


Languages

Language:Python 100.0%