大数据架构 - Hadoop2 - Hadoop集群部署通过Docker安装Hadoop镜像启动Hadoop 通过ja

通过Docker安装Hadoop镜像

docker pull sequenceiq/hadoop-docker

启动Hadoop

docker run -p 50070:50070 -p 9000:9000 -p 8088:8088 -it sequenceiq/hadoop-docker 
/etc/bootstrap.sh -bash

通过jar启动Hadoop

cd $HADOOP_PREFIX
> bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar grep input 
output 'dfs[a-z.]+'
>
> bin/hdfs dfs -cat output/*

Hadoop UI
在这里可以看到启动过程，以及NN和DN的信息。 http://localhost:50070/dfshealth.html#tab-overview

Yarn Resource Manager UI
http://localhost:8088/cluster

Hadoop的三种部署模式
• Standalone模式
• 只有一个进程，所有角色以线程形式模拟 • 用于功能测试或者演示

• 伪分布式模式
• 所有角色/进程均部署在一个节点上，用单节点模拟集群环境

• 分布式集群模式
• 真正的生产环境，考虑性能和可用性，需要规划集群拓扑

伪分布式模式
各个角色对应的rpm
• HDFS NameNode: yum install hadoop-hdfs-namenode
• HDFS SecondaryNameNode: yum install hadoop-hdfs-secondarynamenode
• HDFS DataNode: yum install hadoop-hdfs-datanode
• YARN ResourceManager: yum install hadoop-yarn-resourcemanager
• YARN NodeManager: yum install hadoop-yarn-nodemanager
• MapReduce: yum install hadoop-mapreduce
配置文件
• 各个配置文件在/etc/hadoop/conf下
• 特别注意：由于单节点，HDFS block replica要设为1（默认3）

配置文件

初始化和启动
• 初始化HDFS
Ø NameNode要format才能用
Ø hadoop namenode -format
• 启动服务
Ø service hadoop-hdfs-namenode start
Ø service hadoop-hdfs-datanode start
Ø service hadoop-yarn-resourcemanager start
Ø service hadoop-yarn-nodemanager start
• 验证服务
Ø NameNode: http://{hostname}:50070
Ø ResourceManager: http://{hostname}:8088
• 命令行操作：
Ø HDFS：hadoop fs -mkdir /user && hadoop fs -mkdir /user/{username}
Ø MapReduce: hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduceexamples.jar\

分布式集群部署\

什么是CDH？
CDH是cloudera公司出品的，包含hadoop生态园的多种工具的，一个“打包发行版”。
即cloudera公司在原本的hadoop等开源项目的基础上，进行二次开发，从而得到了CDH。

为什么选择CDH CDH将hadoop生态圈的几种工具融合到了一起，在一定程度上解决了工具之间的兼容问题 CDH提供了一套可读性比较高的日志系统，使得运维人员可以快速定位错误。 CDH支持自动化部署节点，使得集群易于扩展，可以很简单的为集群添加工具。

搭建CDH： docs.cloudera.com/documentati… www.jianshu.com/p/610cce9f9…

未完待续。。。