young8 / Bigdata_Components_Guide

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Bigdata Components Guide

大数据生态圈各个组件的原理解析、Demo教程、运行过程中的填坑记录和一些官方文档的翻译。

目前主要是Hadoop、HBase、Spark等。

由于大数据生态圈的工具越来越丰富,个人能力有限,只是把学过的/在项目中应用过的组件记录起来
如果你也有好的经验文档,欢迎补充~

附录(一些大数据组件)

计算框架:

  • Beam:Google
  • Tez:Hortonworks
  • Spark:UC Berkeley
  • Flink:TU Berlin
  • Storm:Twitter
  • Heron:Twitter

数据传输:

  • Flume:Cloudera
  • Sqoop:Cloudera
  • Nifi:NSA
  • Kafka:LinkedIn

SQL On Hadoop:

  • Impala:Cloudera
  • Hive:Facebook
  • Presto:Facebook
  • Keylin:eBay
  • Phoenix:Salesforce

集群工具:

  • Oozie:Yahoo
  • Zeus:Alibaba
  • Dr. Elephant:Hadoop 和Spark的性能监控和调优工具,LinkedIn
  • Hue:Cloudera
  • Ambari:Hortonworks
  • Nagios:Ethan Galstad
  • Ganglia:UC Berkeley
  • Splunk:Splunk

数据挖掘/机器学习:

  • CaffeOnSpark:基于Hadoop/Spark的分布式深度学习,Yahoo
  • Photon:机器学习库支持Spark,Linkedin
  • WhereHows:数据挖掘软件,Linkedin
  • TensorFlow Serving:机器学习服务系统,Google
  • FBLearner Flow:管理机器学习模型的机器学习软件,Facebook
  • SyntaxNet:自然语言解析器,Google
  • DeepText:文本理解引擎,Facebook
  • CNTK:深度学习工具包,Microsoft
  • DSSTNE:深度学习框架,Amazon
  • Torchnet:深度学习框架,Facebook
  • bot:聊天机器人开发平台,Facebook

About