一、Hadoop集群简介
- HDFS集群
- 主角色:NameNode
- 从角色:DataNode
- 主角色辅助角色:SecondaryNameNode
- YARN集群
- 主角色:ResourceManager
- 从角色:NodeManager
二、集群角色规划
- 根据软件工作特性和服务器硬件资源情况合理分配。比如NameNode需要大量内存,需要部署在大内存的机器上
- 资源上有抢夺冲突的,尽量不要部署在一起。比如NameNode和SeconaryNameNode,都需要内存,所以部署在不同机器上
- 工作上需要相互配合的,尽量部署在一起。比如DataNode和NodeManager,NodeManager是负责管理资源和计算的,计算就需要数据,所以和DataNode部署在一起
三、Hadoop安装包目录结构
- bin:Hadoop最基本的管理脚本和使用脚本的目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用Hadoop
- etc:Hadoop配置文件所在的目录
- sbin:Hadoop管理脚本所在的目录,主要包含HDFS和YARN中各类服务的启动/关闭脚本
- share:Hadoop各个模块编译后的jar包所在的目录,官方自带示例
- include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写MapReduce程序
- lib:该目录包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用
- libexec:各个服务对应的shell配置文件所在的目录,可用于配置日志输出、启动参数(比如JVM参数)等基本信息
\
Hadoop部署模式
1、单机模式:一个机器运行一个Java进程,所有角色在一个进程中运行,主要用于调试;
2、伪分布式:一个机器运行多个Java进程,每个角色一个进程,主要用于调试;
3、集群模式:集群模式主要用于生产环境部署。会使用n台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同的机器上;
4、HA mode:在集群模式的基础上为单点故障部署备份角色,形成主备架构,实现容错;