Spark总览（Spark Overview）_

Apache Spark是一个快速的通用目的的（general-purpose）集群运算系统。它提供了Java，Scala，R语言的高级（high-level）APIs，和一个支持通用执行图（general execution graphs）优化的引擎。也支持丰富的更高级的（higher-level）工具，包括用于结构化数据处理的Spark SQL，用于机器学习的MLlib，用于图处理的GraphX，和Spark Streaming。

Spark可以在Windows和类UNIX（UNIX-like，Linux，Mac OS）系统运行。在一台机器上本地性的运行很简单——只需要在系统 PATH 上安装java，或者让 JAVA_HOME 环境变量指向Java安装目录。

1、Running the Examples and Shell

可以在Spark顶层目录，使用命令 bin/run-example <class> [params] 运行Spark的Java或Scala样例，如：

./bin/run-example SparkPi 10

通过一个修改版本的Scala shell可以交互式地运行Spark。这是学习Spark框架的一种很棒的方式。

./bin/spark-shell --master local[2]

带上 --help 选项运行Spark shell，可以查看Spark shell使用帮助。

Spark也提供了Python API。在Python编译器中使用 bin/pyspark 交互地运行Spark：

./bin/pyspark --master local[2]

运行Python样例应用：

./bin/spark-submit examples/src/main/python/pi.py 10

Spark也有R API。在R编译器中交互地运行Spark如下：

./bin/sparkR --master local[2]

R样例应用：

./bin/spark-submit examples/src/main/r/dataframe.R

2、Launching on a Cluster

Spark可以单独运行，也可以在某些集群管理器上运行。

Standalone Deploy Mode：在一个私有集群上部署Spark
Apache Mesos
Hadoop YARN

millor1989 / spark_note

Spark总览（Spark Overview）_

1、Running the Examples and Shell

2、Launching on a Cluster

About