hubhack / data-analysis

python数据分析指南

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

数据分析内容

[TOC]


内容

  • 数据清洗
  • 数据可视化
  • 数据分析, 文本挖掘
  • 建模预测

侧重库

  • Pandas:数据预处理和数据分析库
  • Numpy:数值计算库
  • Matplotlib/PyEcharts:绘图库,数据可视化
  • scikit-learn:机器学习库
  • Keras/Tensorflow:深度学习库

Python派技术栈:

  • 环境和工具:Python原生环境/Anaconda/Miniconda
    • 包和环境管理器:pip和conda
    • 交互式编辑器:Jupyter-Notebook
    • 标记语言:Markdown
    • 文档工具:GitBook
  • 数据分析
    • Pandas:Python数据预处理、可视化和数据分析库(表格容器)
  • 数据可视化
    • Matplotlib:Python底层绘图库(多用于数据可视化)
    • Echarts/PyEcharts:Web数据可视化库,JS库
    • Seaborn:Python上层数据可视化库
    • Plotly/Bokeh:Python交互式可视化库
    • Mayavi:Python 3D绘图库
  • 科学计算
    • Numpy:数值计算库,底层,基础,N维数组容器,(数值计算,计算机求数学问题近似解)
    • SymPy:符号计算库,计算机代数系统,(符号计算,用计算机推导和计算数学公式)
    • SciPy:科学计算函数库,集成大量科学计算用算法
    • statsmodels:统计建模和计量经济学库
  • 文本分析(非格式化数据分析,文本挖掘)
    • Jieba:中文分词
    • WordCloud:词云
    • SnowNLP,TextBlob:情感分析
    • Gensim:主题建模,文本相似度度量,词向量,发现文本语义结构
    • NLTK:自然语言处理工具包
  • 机器学习
    • scikit-learn:Python机器学习库
    • xgboost/lightGBM:集成学习库
  • 深度学习
    • Tensorflow:Python深度学习库,2016
    • Keras:Python深度学习上层库(已被收入Tensorflow)
    • PyTorch:Python深度学习库,2017(2018年4月与caffe2合并)
  • 其他相关
    • 数据获取
      • 爬虫相关
    • 数据库相关
      • 关系型数据库:MySQL
      • 非关系型数据库:MongoDB
      • key-value缓存数据库:Redis
    • 大数据
      • Hadoop,Spark

About

python数据分析指南

License:MIT License