yuxiaowww / Big-data-analysis-and-processing

数据分析与处理实践 (包括:#基本数据预处理操作;#机器学习基本算法实现。)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Big-data-analysis-and-processing

大数据分析与处理

数据分析1#:实现基本的数据预处理操作

数据分析2#:实现线性回归、J48算法

数据分析3#:实现K-means算法

数据分析4#:实现PCA降维、J48的特征选择算法

数据分析5#:实现随机森林、基于线性回归的模型融合

1、算法实现主要参考了《机器学习实战》,有少量的创新。其中K-means算法性能不高,时间耗费相对较大;J48算法对连续型数据的操作没有实现;模型融合是参照stacking的流程,效果一般,使用不当容易造成过拟合。

2、每个文件夹中均存放了源代码文件和数据文件,以及均有word详细说明,部分文件夹中含有生成保存的效果图片。

About

数据分析与处理实践 (包括:#基本数据预处理操作;#机器学习基本算法实现。)


Languages

Language:Python 100.0%