Ubuntu 16.04 Hadoop-2.7.3全分布模式 + eclipse hadoop

1,227 阅读17分钟

Ps1:主要答疑区在本帖最下方,疑点会标注出来。个人在配置过程中遇到的困难都会此列举。

Ps2:本帖也是我自己原创的,最近从CSDN搬家过来。原帖地址


实验介绍:

  本次实验主要介绍了Hadoop平台的两个核心工具,HDFS和Mapreduce,结合这两个核心在Linux下搭建基于YARN集群的全分布模式的Hadoop架构。

  实验案例,基于Hadoop平台下的Wordcount分词统计的试验

实验需求:

  1、PC机,局域网服务,Linux系统  

背景介绍:

  Hadoop实现了一个分布式文件系统,简称HDFS。
  HDFS有高容错性的特点,并且设计用来部署在普PC机上,而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。
  HDFS放宽了POSIX的要求,可以以流的形式访问文件系统中的数据。
  Hadoop的框架最核心的设计就是:
    HDFS和MapReduce。
    HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
  
  开发者在熟练掌握了hadoop的使用后轻松地在Hadoop上开发和运行处理海量数据的应用程序
  

  NameNode

  NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。
  它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。
  对于最常见的 3 个复制块,第一个复制块存储在同一机架的不同节点上,最后一个复制块存储在不同机架的某个节点上。
  实际的 I/O事务并没有经过 NameNode,只有表示 DataNode 和块的文件映射的元数据经过 NameNode。
  当外部客户机发送请求要求创建文件时,NameNode 会以块标识和该块的第一个副本的 DataNode IP 地址作为响应,这个 NameNode 还会通知其他将要接收该块的副本的 DataNode。
  NameNode 在一个称为 FsImage 的文件中存储所有关于文件系统名称空间的信息。
  这个文件和一个包含所有事务的记录文件(这里是 EditLog)将存储在 NameNode 的本地文件系统上。FsImage 和 EditLog 文件也需要复制副本,以防文件损坏或 NameNode 系统丢失。
  NameNode本身不可避免地具有SPOF单点失效的风险,主备模式并不能解决这个问题,通过Hadoop Non-stop namenode才能实现100% uptime可用时间。

  DataNode

  DataNode 也是一个通常在 HDFS实例中的单独机器上运行的软件。
  Hadoop 集群包含一个 NameNode 和大量 DataNode。
  DataNode 通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。
  Hadoop 的一个假设是:机架内部节点之间的传输速度快于机架间节点的传输速度。
  DataNode 响应来自 HDFS 客户机的读写请求。它们还响应来自 NameNode 的创建、删除和复制块的命令。
  NameNode 依赖来自每个 DataNode 的定期心跳(heartbeat)消息。每条消息都包含一个块报告,NameNode 可以根据这个报告验证块映射和其他文件系统元数据。
  如果 DataNode 不能发送心跳消息,NameNode 将采取修复措施,重新复制在该节点上丢失的块。

实验步骤及结果:

1.搭建平台(全分布式hadoop + eclipse Neon.1 + JDK1.8)

  

  集群搭建:

  主机两台(可拓展):

  (1)两个主机系统均为Ubuntu 16.04 LTS

    详情:

      master 192.168.:103.26(虚拟机)

      slave2 192.168.103.22(物理机)

      

      注:

        (1)slave1是在同学的笔记本上,因为他的笔记本总是飘忽不定,所以这次博客上就先不写他的ip地址

        (2)master是虚拟机的理由就是第一次尝试怕配错环境,导致崩溃,所以用了VMware为master,方便拯救平台

  (2)hadoop平台版本都为最新稳定版2.7.3(解压及安装hadoop)      

      下载地址:Hadoop官网 hadoop.apache.org/releases.ht…

      

      步骤1:点开网页以后,点击红色箭头所指的链接

      步骤2:点开后如下图

      

      步骤3:选择一个链接下载(个人推荐最后一个 tsinghua.edu.cn 清华大学链接源比较好)

      步骤4:下载完后打开文件管理器,选择Downloads文件夹(如果修改主要文件夹名字为中文的,应选择“下载”)

      

      步骤5:解压到指定路径

      步骤5.1:在当前文件夹下右键 - 在终端打开 键入su root命令

      

      步骤5.2:输入root用户密码后,如下图所示

      

      步骤5.3:键入解压命令

sudo tar zxvf hadoop-2.7.3.tar.gz -C /usr/local/hadoop

        (注意:如果提示hadoop文件夹不存在的,可以在root用户下用cd命令到 /usr/local路径下 键入 sudo mkdir /hadoop 创建夹)

      步骤5.4:解压后如下图所示

        (注意:路径满足如图所示即可,或自行定义)

    至此hadoop前期下载准备工作已经完成。接下准备java环境的配置

 

  (3)JDK版本为java8-oracle(配置java环境)

     (环境:系统稳定联网状态下)

      步骤1:打开终端键入命令(root用户模式可以不用加sudo前缀)

sudo add-apt-repository ppa:webupd8team/java

      步骤2:出现一段文字后按回车继续

      步骤3:继续键入命令

sudo apt-get update

      步骤4:待系统加载完所有下载源

      步骤5:键入安装命令

sudo apt-get install oracle-java8-installer

      步骤6:等待下载结束(过程稍微有点漫长)

      

      这个版本的java默认安装在 /usr/lib/jvm文件夹下

      安装结束后配置环境变量

      

      终端输入:

sudo gedit /etc/profile

      步骤7:配置完后,按 ctrl + s 保存

      步骤8:在终端中输入

sudo source /etc/profile

      使配置的环境变量生效

      步骤9:和在Windows下配置一样,在终端测试java和javac命令是否生效,在linux下可以多测试下jps命令看java进程号

      

      至此java环境变量配置完毕

  (4)SSH免密配置

    SSH 是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议。利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题。SSH最初是UNIX系统上的一个程序,后来又迅速扩展到其他操作平台。

    SSH在正确使用时可弥补网络中的漏洞。SSH客户端适用于多种平台。

      Ubuntu Linux下配置免密登录主要依靠 ssh localhost的命令

      !!注意,如果改过 /etc/hosts 下的内容需要重新配置(下图是我的例子)

    

    由于后期为了避免hadoop的一些端口和IP错误,所以我把localhost的名字改了,顺带把 /etc/hostname 的名字也改了。

    改了上述的 hosts 和 hostname的名字后,记得重启电脑或者虚拟机

    

    192.168.91.45是我虚拟的IP的地址 名字叫master 相当于 没有改变配置文件之前的 127.0.0.1 localhost

    所以配置ssh免密的时候是键入 ssh master 而不是 ssh localhost

    

    话不多说!

    步骤0:SSH需要安装OpenSSH-server(如果已经安装则无需理会)

sudo apt-get install openssh-server

    步骤1:在非root用户模式下打开终端键入ssh localhost(或者是定义的用户名)

    步骤2:提示输入密码,输入你的ssh密码(自己记得住就好)

    步骤3:输入完以后,测试一下ssh localhost(或是自定义名字),输入密码后是否如下图弹出一些信息

    

    步骤4:如果下午所示后,则创建ssh成功

    步骤5:创建免密登录(不需要关闭终端),键入如下命令

ssh-keygen -t rsa

    

    步骤6:一直按回车直至出现RSA窗口即可

    步骤7:键入命令

sudo cp .ssh/id_rsa.pub .ssh/authorized_keys

    步骤8:验证免密登录,输入ssh localhost(或者自定义的名字),是否还需要输入密码登录

    root用户下:

    步骤1:进入root用户模式(用户模式下在终端键盘入:su root,输入root密码即可)

    步骤2:进入ssh配置文件

gedit /etc/ssh/sshd_config

    

    步骤3:把PermitRootLogin的字段改成 yes(原来的好像是Prohibit xxxx的),有点忘记了。总之改成yes就可以了

    步骤4:保存退出终端

    步骤5:打开新的终端键入命令

sudo service ssh restart

    重启ssh服务之后,打开终端

    

    步骤6:进入root用户模式下,键入 ssh localhost(或是你的自定义名字)

    步骤7:输入自定义ssh密码后,与用户模式下的类似

    步骤8:键入 ssh-keygen -t rsa 创建RSA密钥

    步骤9:一直回车直至出现RSA密钥图,(如果提示Overwrite 输入 y 即可)

    步骤10:键入配置免密的命令

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

    步骤11:完成后,在root用户模式输入 ssh localhost(或自定义名字)后,如下图所示即可。

        

    

    至此,root用户和普通用户模式的ssh免密配置完成。

    

  (4.1)SSH免密配置(节点篇)

      需求:如果每个节点都需要下载安装hadoop ,则大量耗费人力物力。

      解决:所以需要一个SSH来远程发送hadoop包分发给每个节点。

      

      接下来来讲解master打通每个节点的连接方式(单节点和多节点一样,只要配置好就可以进行连接)

      步骤1:在hosts文件中配置好各子节点的ip地址以及名称(如下图)

      

      步骤2: 编辑好hosts文件保存并关闭,(root用户模式下)打开终端输入

ssh-copy-id -i ~/.ssh/id_rsa.pub root@slave* 
(星号代表子节点号码,或者把slave*换成自定义的名称)

      步骤3:提示输入,子节点的登录密码,输入完成后,等待命令完成

      步骤4:在终端中输入 ssh slave*(或者自定义名字),如下图:

     步骤5:ssh打通master和子节点的通道,可以通过scp命令传输数据了。

     至此,完成对于子节点的ssh免密访问配置。

  (5)hadoop平台版本都为最新稳定版2.7.3(解压及安装hadoop)

    hadoop配置下主要注意配置文件路径的问题

    主要包括:hadoop根目录下 /etc/hadoop 里面的xml配置文件

      例:hadoop-env.sh , hdfs-site.xml, mapred-site.xml , core-site.xml , yarn-site.xml

      

      注:mapred-site.xml需要复制出来到本路径,原本是mapred-site.xml.template 需要用 cp 命令复制并改名字

        或者可以通过 gedit 命令创建一个新的mapred-site.xml,把模板内的内容复制过去,然后再进行配置

     

      配置文件1:hadoop-env.sh(配置环境变量,让hadoop识别)

      配置文件2:core-site.xml

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://master:8020</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/tmp</value>
    </property>
    <property>
        <name>hadoop.proxyuser.hadoop.hosts</name>
        <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.hadoop.group</name>
        <value>*</value>
    </property>
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>

      配置文件3:hdfs-site.xml

<configuration>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>master:9000</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/home/hadoop/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/home/hadoop/dfs/data</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
</configuration>

      配置文件4: mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapred.job.tracker</name>
        <value>master:9001</value>
    </property>
    <property>
        <name>mapred.job.tracker.http.address</name>
        <value>master:50030</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>master:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>master:19888</value>
    </property>
</configuration>

      配置文件5:yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>master:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:8031</value>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>master:8033</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>master:8088</value>
    </property>
</configuration>

      !!!注:如果是master节点(即服务器)需要添加多一个slaves文件指定slave

      配置文件6:slaves(选)

slave2 192.168.90.33

     

    最后步骤:以上配置文件配置完毕后打开终端窗口,输入

hadoop namenode -format

    出现如下结果,没有JAVA报错即可

    初始化hadoop namenode节点成功!

    

    打开终端利用 cd 命令进入hadoop启动命令文件下

cd /usr/local/hadoop/hadoop-2.7.3/sbin

    

    键入如下命令启动hadoop(root用户模式下)     

./start-all.sh

    关闭hadoop则键入命令关闭

./stop-all.sh

    

    输入jps在master节点测试,如果如上图所示则测试成功

    在ssh slave2 节点输入jps测试

    

    通过hadoop 自带命令

hadoop dfsadmin -report

    如上图所示输出Live Datanodes,说明有存活节点,死节点为空。

    证明集群配置成功!

  (6)集群安装hadoop(完成Master节点的hadoop安装以及SSH的搭建)    

    构建好master与各个slave之间的ssh通信,如下图所示

    步骤1:测试ssh命令与各节点间的通信

    步骤2:确认本机的hadoop安装地址

    步骤3:

scp –r /usr/local/hadoop/ root@slaver2:/usr/local/hadoop 

    把master上的hadoop分发给slave2节点(其他节点依次类推,只要搭好ssh就可以传输)。

    传输过程有点久,耐心等候。

    步骤4:在slave节点上配置环境变量

HADOOP_HOME=/usr/local/Hadoop  PATH=$PATH:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin

    步骤5:在master启动hadoop进行测试

Namenode界面 50070端口

hadoop管理界面 8088端口

hadoop SecondaryNamenode 管理界面 端口9000

  (7)hadoop Wordcount测试(完成eclipse和eclipse hadoop插件安装)

    步骤0:安装eclipse和eclipse hadoop插件

      步骤0.1:安装eclipse

      

    下载后,解压到自定义路径,解压后如所示

      在此给出eclipse hadoop插件下载(pan.baidu.com/s/1mi6UP5I

      下载后,把jar放到eclipse根目录的dropins的目录

      在根目录进入终端,进入root用户模式,输入

./eclipse

      进入eclipse界面,完成安装。

      

    步骤1:启动hadoop完成上述集群测试

    步骤2:通过终端把测试数据 test.txt上传到hdfs中 (test.txt为hadoop跟目录下的NOTICE.txt)

      步骤2.1:在hdfs目录下创建input文件夹

hadoop fs -mkdir /input
hadoop fs -put test.txt /input

    如图所示,则上传成功。

    如果权限不对的话可以修改权限

hadoop fs -chmod -R 777 /input/test.txt

    

    步骤3:打开eclipse,并完成mapreduce的wordcount代码,完成eclipse hadoop的配置

   步骤4:确保左上角的DFS Location能够显示hdfs中的文件目录

WordCount代码:

package org.apache.hadoop.examples;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

    public static class TokenizerMapper
    extends Mapper<Object, Text, Text, IntWritable>{

        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) 
            {
                word.set(itr.nextToken());
                context.write(word, one);
            }
        }
    }

    public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> 
    {
        private IntWritable result = new IntWritable();

        public void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException 
        {
            int sum = 0;
            for (IntWritable val : values) 
            {
                sum += val.get();
            }
            result.set(sum);
            context.write(key, result);
        }
    }

    public static void main(String[] args) throws Exception 
    {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

log4j日志文件:

log4j.rootLogger=debug, stdout, R 
#log4j.rootLogger=stdout, R   
log4j.appender.stdout=org.apache.log4j.ConsoleAppender   
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout   
#log4j.appender.stdout.layout.ConversionPattern=%5p - %m%n   
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n  
log4j.appender.R=org.apache.log4j.RollingFileAppender   
log4j.appender.R.File=log4j.log   
log4j.appender.R.MaxFileSize=100KB   
log4j.appender.R.MaxBackupIndex=1   
log4j.appender.R.layout=org.apache.log4j.PatternLayout   
#log4j.appender.R.layout.ConversionPattern=%p %t %c - %m%n   
log4j.appender.R.layout.ConversionPattern=%d %p [%c] - %m%n  
#log4j.logger.com.codefutures=DEBUG

    步骤5:配置Run Configuration

    步骤6:右键Run As - Run On Hadoop(日志我选用了DEBUG模式测试,所以会很长,但是方便测试)

    

    此时,master hdfs多出一个文件夹存放分词结果

    下列图为结果部分截图:

    

    至此,从安装到mapreduce Wordcount测试全部结束了。

    hadoop2.7.6全模式下,结合eclipse hadoop插件配置,完成Wordcount测试。

实验结果分析:

1、Wordcount项目代码是结合Map-reduce的核心思想,以及对于Java输入输出流的认识所编写,也参考了一下"大牛"博客编写的,能够基本实现分词-词频统计。

2、小项目的分词的效果显然没有Python Jieba分词来的精确,但是基于Hadoop Mapreduce的运算,分词一篇词汇众多的文档只需要5秒。(如需查看请点开。文档来源:Hadoop LICENSE.txt)

测试文档

心得体会:

    1、实验完成结果到达预期目标,在搭建平台的过程耗费了很多学习成本,主要花在安装包的下载以及对于Linux系统的理解和hadoop配置文件的理解。

    2、实验完成的过程中与小组成员分工合作,在搭建过程中自学了linux的命令操作以及linux系统的一些工作原理。

    3、在搭建hadoop平台时,遇到很多匪夷所思的问题,通过hadoop平台自带的log文件,查看日志文件,百度搜索或者看国外网站的配置方式,再通过自己的尝试,解决问题。

    4、在搭建过程体会最深的就是hadoop对于端口的使用很谨慎,第一次在尝试的时候没有仔细看清楚官网文档的端口设置,配置出错,导致进度耽误几天,最后才发现是端口的问题。

    5、在搭建完后对于linux系统也有深刻的体会,对于linux的权限设置,SSH,以及基本的文件操作命令等有基本的掌握经验。

    6、小组成员在第一次冲刺后决定更改软件工程项目,主要是为了适应目前的学习任务以及工作任务。小组成员目前在分析 学校历年学生体质测试数据 以及 网络招聘岗位数据对应学校各二级学院的专业核心技能

      Python Django项目属于python后端项目,初期小组成员定题是为了学习除java后端以外的另外一直后端开发。但是后期因为繁重的分析任务以及报告,所以决定开始寻找新的出路,也顺利在第三次冲刺前几天完成实验。

      虽然可能与软件工程的项目关系不太大,但是在搭建平台的过程,小组成员也深刻体会到团队合作的意义。以及对于大数据平台的理解,不再是觉得深不可测,改变对于大数据平台以及云计算的看法。

展望:

    1、希望在接下来的寒假或者未来的时间点,完善自己的hadoop平台,通过hadoop平台提交小组的数据分析项目,利用Mapreduce并行化算法以及YARN集群分布式计算,提高数据分析的效率。

    2、以及写一个基于hadoop平台的分布式爬虫,提高大数据的读取时间。

    3、目前也在学习Spark,掌握与Mapreduce相类似的并行化运算框架,也希望在日后的使用中,结合HBase,Mapreduce/Spark搭建一个云计算平台项目。

    4、在未来的时间,花更多时间从理解hadoop的核心架构,到理解hadoop的外沿,学习Spark,HBase,Pig,Mahout,Hive等核心工具的使用。

    5、最近时间关注大数据方向注意到关联数据RDF的应用,也希望能尝试利用Sqoop读取关联数据,进行数据分析。