hadoop架构

87 阅读1分钟

当前版本的Hadoop主要由三部分组成,分别是提供分布式存储的HDFS,提供分布式计算的MR,和提供分布式资源调度的YARN,其中HDFS是一种主从架构的组件,主要由主节点namenode和从节点datanode组成,另外还有一个辅助结点secondary namenode,其中namenode主要负责元数据的管理,比如文件的路径、文件的大小、文件的名字、文件的权限、文件的block块切片信息等等。而datanode则是负责实际的数据块的存储,另外secondary namenode会辅助主节点namenode进行元数据的管理,主要是周期性的帮助namenode合并元数据记录文件,减轻namenode的工作量,但是它并不是namenode的热备份。

多说一句的是,hdfs还有个组件是Client客户端,文件切块的工作是它来做的。

提供分布式资源调度的YARN也是一个主从架构的组件,主要有RM和NM组成,RM负责接收用户的计算请求任务,并负责管理集群的资源分配,而NM则是负责执行主节点分配的任务,负责给计算任务提供具体的资源。

最后说一下他们之间的协作关系,那就是MR计算所需要的数据以及计算的结果数据是由HDFS负责存储的,而MR计算所需要的资源则是由YARN负责协商管理的。