Data Science Introduction with R
简介 - Introduction
- 本项目是一套以 R 为分析语言的数据科学入门教程。
- 托管网站: https://ds-r.leovan.tech
- Git 仓库目录结构:
- base 目录:幻灯片相关配置文件
- docs 目录:其他资料
- 其他一级目录:
- 二级目录:
- *.pdf:本节课程幻灯片
- data:本节课程所需数据文件
- slide:本节课程幻灯片源代码
- 本项目遵守 CC BY-NC-SA 4.0 协议。
准备 - Preparation
- 操作系统: Windows 10+ (x64),macOS 10.12+,Ubuntu 16.04+
- R 最新版本 (下载地址)
- RStudio: 最新 Preview 版本 (下载地址,Preview 版本有些新特性比较实用)
- Visual Studio Code: 最新版本 (下载地址,用于代码浏览和编辑)
- Python: 最新版本 Anaconda Python 3 (下载地址,用于 Jupyter 基础环境)
- Visual Studio Code: 最新版本 (下载地址,用于代码浏览和编辑)
- Typora: 最新版本 (下载地址,用于 Markdown 浏览)
参考书籍 - Reference
- 《R语言实战》(R in Action),Robert I. Kabacoff 著,王小宁、刘撷芯、黄俊文 等 译
- 《R数据科学》(R for Data Science),Hadley Wickham & Garrett Grolemund 著,陈光欣 译
- 《高级R语言编程指南》(Advanced R),Hadley Wickham 著,潘文捷、许金炜、李洪成 译
- 《基于R语言的机器学习》(Introduction to Machine Learning with R),Scott V. Burger 著,马晶慧 译
- 《机器学习与R语言》(Machine Learning with R),Brett Lantz 著,李洪成、许金炜、李舰译 译
- 《统计学习方法》李航 著
- 《机器学习》周志华 著
- 《深度学习》(Deep Learning),Ian Goodfellow, Yoshua Bengio & Aaron Courville 著,赵申剑、黎彧君、符天凡、李凯 译
数据科学简介 - Data Science Introduction
- 数据科学概念
- 数据科学
- 数据产品
- 跨界
- 数据科学工具箱
- 数据科学常用工具
- 数据科学之战:R 和 Python
- 选择哪种语言
- 数据科学分工与流程
- 数据科学分工
- 数据分析和挖掘流程
R 语言简介 - R Language Introduction
- R 相关环境配置
- R 基础语法
- R 对象,函数和扩展包
- R 数据结构
- R 语言编码风格
数据分析基础 (上) - Data Analytics Introduction - Part 1
- 大神的工具箱
- 数据导入和导出
- 数据转换和规整
数据分析基础 (下) - Data Analytics Introduction - Part 2
- 关系数据处理
- 不同类型数据处理
- 函数式编程
数据可视化 - Data Visualization
- 数据可视化
- ggplot2
- 基于 Web 的绘图库
统计分析基础 - Statistical Analytics Introduction
- 探索性分析
- 描述性统计量
- 常用分布
- 实验设计
- 假设检验概念
- 常用假设检验
- 线性回归
- 一元线性回归
- 多元线性回归
- 广义线性回归
- 最小二乘法与梯度下降
特征工程 - Feature Engineering
- 数据预处理
- 数据清洗
- 缺失值,重复值,异常值处理
- 数据采样,数据集分割
- 特征变换和编码
- 无量纲化
- 分箱
- 哑变量化
- 特征提取,选择和监控
- 特征提取
- 特征选择
- 特征监控
模型评估 & 超参数优化 - Model Evaluation & Hyperparameter Optimization
- 模型性能评估
- 回归问题
- 分类问题
- 聚类问题
- 模型生成和选择
- 过拟合问题
- 评估方法
- 偏差和方差
- 超参数优化
- 搜索算法
- 进化和群体算法
- 贝叶斯优化
分类算法 (上) - Classification Algorithms - Part 1
- 逻辑回归
- 决策树
分类算法 (下) - Classification Algorithms - Part 2
- Bagging
- Boosting
- Stacking
时间序列算法 - Time Series Algorithms
- 时间序列
- ARIMA 模型
- 季节性分析
- Prophet
聚类算法 - Clustering Algorithms
- K-means
- 层次聚类
- 基于密度的聚类
可重复性研究 - Reproducible Research
- 可重复性研究
- Markdown
- R Markdown
- Jupyter
- 版本控制
深度学习算法 - Deep Learning Algorithms
- 人工神经网络
- 卷积神经网络
- 循环神经网络
- 深度学习框架