titer1 / Play_HadoopFelix

这不仅仅是《hadoop海量数据处理》书的实践记录,正基于作者版本(2017.05.17)进行再开发

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Play_HadoopFelix

感谢一路的好伙伴,尤其感谢范老师,他的指点迷津,让我坚持了做大数据的决心。

这不仅仅是hadoop海量数据处理书的实践记录,还会基于作者版本(2017.05.17)进行再开发。

本项目分4阶段进行。

  • 第一阶段实现在windows端的模拟,实现数据源导入程序(import.py)和hql执行程序(exe_hql.py)的windows端运行,2017-06-05已经OK。

相关链接:

实战hadoop海量数据处理系列03 :数据仓库的设计

实战hadoop海量数据处理系列02 : hql执行工具

实战hadoop海量数据处理系列01 :数据导入篇

实战hadoop海量数据处理系列 : 序

  • 第二阶段将实现数据库的创建,争取还原原书的数据库结构,数据库内容利用随机生成策略得到,本阶段期望实现数据源导入程序(import.py)和hql执行程序(exe_hql.py)的linux端运行
  • 第三阶段实现数据挖掘等相关功能
  • 第四节阶段配合书中的优化章节,进行相关的实验。

let‘s go

我们的目标是不仅仅做理论派,跑起来才有意思

实践问题可与titer2008@gmail.com联系(更建议使用github pull request),希望开卷有益。

About

这不仅仅是《hadoop海量数据处理》书的实践记录,正基于作者版本(2017.05.17)进行再开发


Languages

Language:Java 66.8%Language:Python 33.2%