rockManFlow / hadoop

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Hadoop

首先,hdfs仅是一个分布式文件存储系统,以一个一个文件为单位进行的存储。文件在hdfs中以块的方式存储在多个节点上(当作备份,默认3备份)。

mapreduce是Hadoop提供的一个访问hdfs来进行的计算框架。可以在本地或者远程来执行编写的计算程序。 文件的获取可以从hdfs或者其他地方来获取文件。非Hadoop环境也可执行计算任务。

MapReduce程序的运行模式主要有两种:

(1)本地运行模式:在当前的开发环境模拟MapReduce执行环境,处理的数据及输出结果在本地操作系统。

(2)集群运行模式:把MapReduce程序打成一个Jar包,提交至Yarn集群上去运行任务。由于Yarn集群负责资源管理和任务调度,程序会被框架分发到集群中的节点上并发的执行,因此处理的数据和输出结果都在HDFS文件系统中。

集群运行模式只需要将MapReduce程序打成Jar包上传至集群即可

目的

1、计算框架学习 2、收集、清洗学习 3、分析学习 4、展示学习

About


Languages

Language:Java 100.0%