young8 / Bigdata_Components_Guide

Bigdata Components Guide

大数据生态圈各个组件的原理解析、Demo教程、运行过程中的填坑记录和一些官方文档的翻译。

目前主要是Hadoop、HBase、Spark等。

由于大数据生态圈的工具越来越丰富，个人能力有限，只是把学过的/在项目中应用过的组件记录起来
如果你也有好的经验文档，欢迎补充~

附录(一些大数据组件)

计算框架：

Beam：Google
Tez：Hortonworks
Spark：UC Berkeley
Flink：TU Berlin
Storm：Twitter
Heron：Twitter

数据传输：

Flume：Cloudera
Sqoop：Cloudera
Nifi：NSA
Kafka：LinkedIn

SQL On Hadoop：

Impala：Cloudera
Hive：Facebook
Presto：Facebook
Keylin：eBay
Phoenix：Salesforce

集群工具：

Oozie：Yahoo
Zeus：Alibaba
Dr. Elephant：Hadoop 和Spark的性能监控和调优工具，LinkedIn
Hue：Cloudera
Ambari：Hortonworks
Nagios：Ethan Galstad
Ganglia：UC Berkeley
Splunk：Splunk

数据挖掘/机器学习：

CaffeOnSpark：基于Hadoop/Spark的分布式深度学习，Yahoo
Photon：机器学习库支持Spark，Linkedin
WhereHows：数据挖掘软件，Linkedin
TensorFlow Serving：机器学习服务系统，Google
FBLearner Flow：管理机器学习模型的机器学习软件，Facebook
SyntaxNet：自然语言解析器，Google
DeepText：文本理解引擎，Facebook
CNTK：深度学习工具包，Microsoft
DSSTNE：深度学习框架，Amazon
Torchnet：深度学习框架，Facebook
bot：聊天机器人开发平台，Facebook

About