通过Docker安装Hadoop镜像
docker pull sequenceiq/hadoop-docker
启动Hadoop
docker run -p 50070:50070 -p 9000:9000 -p 8088:8088 -it sequenceiq/hadoop-docker
/etc/bootstrap.sh -bash
通过jar启动Hadoop
cd $HADOOP_PREFIX
> bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar grep input
output 'dfs[a-z.]+'
>
> bin/hdfs dfs -cat output/*
Hadoop UI
在这里可以看到启动过程,以及NN和DN的信息。
http://localhost:50070/dfshealth.html#tab-overview
Yarn Resource Manager UI
http://localhost:8088/cluster
Hadoop的三种部署模式
• Standalone模式
• 只有一个进程,所有角色以线程形式模拟
• 用于功能测试或者演示
• 伪分布式模式
• 所有角色/进程均部署在一个节点上,用单节点模拟集群环境
• 分布式集群模式
• 真正的生产环境,考虑性能和可用性,需要规划集群拓扑
伪分布式模式
各个角色对应的rpm
• HDFS NameNode: yum install hadoop-hdfs-namenode
• HDFS SecondaryNameNode: yum install hadoop-hdfs-secondarynamenode
• HDFS DataNode: yum install hadoop-hdfs-datanode
• YARN ResourceManager: yum install hadoop-yarn-resourcemanager
• YARN NodeManager: yum install hadoop-yarn-nodemanager
• MapReduce: yum install hadoop-mapreduce
配置文件
• 各个配置文件在/etc/hadoop/conf下
• 特别注意:由于单节点,HDFS block replica要设为1(默认3)
配置文件
初始化和启动
• 初始化HDFS
Ø NameNode要format才能用
Ø hadoop namenode -format
• 启动服务
Ø service hadoop-hdfs-namenode start
Ø service hadoop-hdfs-datanode start
Ø service hadoop-yarn-resourcemanager start
Ø service hadoop-yarn-nodemanager start
• 验证服务
Ø NameNode: http://{hostname}:50070
Ø ResourceManager: http://{hostname}:8088
• 命令行操作:
Ø HDFS:hadoop fs -mkdir /user && hadoop fs -mkdir /user/{username}
Ø MapReduce: hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduceexamples.jar\
分布式集群部署\
什么是CDH?
CDH是cloudera公司出品的,包含hadoop生态园的多种工具的,一个“打包发行版”。
即cloudera公司在原本的hadoop等开源项目的基础上,进行二次开发,从而得到了CDH。
为什么选择CDH CDH将hadoop生态圈的几种工具融合到了一起,在一定程度上解决了工具之间的兼容问题 CDH提供了一套可读性比较高的日志系统,使得运维人员可以快速定位错误。 CDH支持自动化部署节点,使得集群易于扩展,可以很简单的为集群添加工具。
搭建CDH: docs.cloudera.com/documentati… www.jianshu.com/p/610cce9f9…
未完待续。。。