大数据架构 - Hadoop2 - Hadoop集群部署

239 阅读2分钟

通过Docker安装Hadoop镜像

docker pull sequenceiq/hadoop-docker

启动Hadoop

docker run -p 50070:50070 -p 9000:9000 -p 8088:8088 -it sequenceiq/hadoop-docker 
/etc/bootstrap.sh -bash

通过jar启动Hadoop

cd $HADOOP_PREFIX
> bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar grep input 
output 'dfs[a-z.]+'
>
> bin/hdfs dfs -cat output/*

Hadoop UI
在这里可以看到启动过程,以及NN和DN的信息。 http://localhost:50070/dfshealth.html#tab-overview image.png

image.png

Yarn Resource Manager UI
http://localhost:8088/cluster image.png

Hadoop的三种部署模式
Standalone模式
• 只有一个进程,所有角色以线程形式模拟 • 用于功能测试或者演示

伪分布式模式
• 所有角色/进程均部署在一个节点上,用单节点模拟集群环境

分布式集群模式
• 真正的生产环境,考虑性能和可用性,需要规划集群拓扑

伪分布式模式
各个角色对应的rpm
• HDFS NameNode: yum install hadoop-hdfs-namenode
• HDFS SecondaryNameNode: yum install hadoop-hdfs-secondarynamenode
• HDFS DataNode: yum install hadoop-hdfs-datanode
• YARN ResourceManager: yum install hadoop-yarn-resourcemanager
• YARN NodeManager: yum install hadoop-yarn-nodemanager
• MapReduce: yum install hadoop-mapreduce
配置文件
• 各个配置文件在/etc/hadoop/conf下
• 特别注意:由于单节点HDFS block replica要设为1(默认3)

配置文件

image.png

初始化和启动
• 初始化HDFS
Ø NameNode要format才能用
Ø hadoop namenode -format
• 启动服务
Ø service hadoop-hdfs-namenode start
Ø service hadoop-hdfs-datanode start
Ø service hadoop-yarn-resourcemanager start
Ø service hadoop-yarn-nodemanager start
• 验证服务
Ø NameNode: http://{hostname}:50070
Ø ResourceManager: http://{hostname}:8088
• 命令行操作:
Ø HDFS:hadoop fs -mkdir /user && hadoop fs -mkdir /user/{username}
Ø MapReduce: hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduceexamples.jar\

分布式集群部署\

image.png

什么是CDH?
CDH是cloudera公司出品的,包含hadoop生态园的多种工具的,一个“打包发行版”。
即cloudera公司在原本的hadoop等开源项目的基础上,进行二次开发,从而得到了CDH。

为什么选择CDH CDH将hadoop生态圈的几种工具融合到了一起,在一定程度上解决了工具之间的兼容问题 CDH提供了一套可读性比较高的日志系统,使得运维人员可以快速定位错误。 CDH支持自动化部署节点,使得集群易于扩展,可以很简单的为集群添加工具。

搭建CDH: docs.cloudera.com/documentati… www.jianshu.com/p/610cce9f9…

未完待续。。。