Hadoop 学习(五)——MapReduce 概述、Hadoop序列化

980 阅读8分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第16天,点击查看活动详情


⭐️前面的话⭐️

✉️坚持和努力一定能换来诗与远方!
💭推荐书籍:📚《王道408》,📚《深入理解 Java 虚拟机-周志明》,📚《Java 核心技术卷》
💬算法刷题:✅力扣🌐牛客网
🎈Github
🎈码云Gitee


MapReduce

11 MapReduce 概述

11.1 MapReduce 定义

  • 分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。
  • 核心功能是将用户编写的业务逻辑代码自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。

11.2 MapReduce 优缺点

优点👉

  • 易于编程

    • 简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器上运行。
  • 良好的扩展性

    • 可以通过简单的增加机器来扩展它的计算能力。
  • 高容错性

    • 比如其中一台机器挂了,它可以把上面的计算任务转移到另外一个节点上运行,不至于这个任务运行失败,而且这个过程不需要人工参与,而完全是由Hadoop内部完成的。
  • 适合 PB级以上海量数据的离线处理

    • 可以实现上千台服务器集群并发工作,提供数据处理能力。

缺点

  • 不擅长实时计算

    • 无法像MySQL一样,在毫秒或者秒级内返回结果。
  • 不擅长流式计算

    • 流式计算的输入数据是动态的,而 MapReduce的输入数据集是静态的,不能动态变化。
    • 这是因为MapReduce自身的设计特点决定了数据源必须是静态的。
  • 不擅长DAG计算

11.3 MapReduce 核心思想

  • 分布式的运算程序需要分成至少2个阶段。
  • 第一阶段的 MapTask 并发实例,完全并行运行,互不相干。
  • 第二阶段的 ReduceTask 并发实例互不相干,但是他们的数据依赖于上一个阶段的所有 MapTask并发实例的输出。
  • MapReduce 编程模型只能包含一个 Map 阶段和一个 Reduce 阶段,如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序,串行运行。
  • 总结:分析 WordCount 数据流走向深入理解 MapReduce 核心思想。

11.4 MapReduce 进程

  • 一个完整的MapReduce程序在分布式运行时有三类实例进程

    • MrAppMaster:负责整个程序的过程调度及状态协调。
    • MapTask:负责 Map 阶段的整个数据处理流程。
    • ReduceTask:负责 Reduce 阶段的整个数据处理流程。

11.5 官方WordCount源码

采用反编译工具反编译源码,发现 WordCount案例有 Map类、Reduce类和驱动类。且数据的类型是Hadoop自身封装的序列化类型。

11.6 常用数据序列化类型

Java类型Hadoop Writable类型
BooleanBooleanWritable
ByteByteWritable
IntIntWritable
FloatFloatWritable
LongLongWritable
DoubleDoubleWritable
StringText
MapMapWritable
ArrayArrayWritable
NullNullWritable

11.7 MapReduce 编程规范

用户编写的程序分成三个部分:Mapper、Reducer和Driver。

Mapper

  • 用户自定义的 Mapper要继承自己的父类
  • Mapper的输入数据是 KV对的形式(KV的类型可自定义)
  • Mapper中的业务逻辑写在 mapO方法中
  • Mapper的输出数据是 KV对的形式(KV的类型可自定义)
  • map0 方法(Map Taski进程)对每一个 <K,V> 调用一次

Reducer

Driver

11.8 WordCount案例实操

  • 需求描述

    • 在给定的文本文件中统计输出每一个单词出现的总次数
  • 需求分析

    • 按照 MapReduce编程规范,分别编写 Mapper,Reducer,Driver。
  • 环境准备

    • 创建maven工程,MapReduceDemo
    • 在pom.xml 文件中添加如下依赖
     <dependencies>
         <dependency>
             <groupId>org.apache.hadoop</groupId>
             <artifactId>hadoop-client</artifactId>
             <version>3.1.3</version>
         </dependency>
         <dependency>
             <groupId>junit</groupId>
             <artifactId>junit</artifactId>
             <version>4.12</version>
         </dependency>
         <dependency>
             <groupId>org.slf4j</groupId>
             <artifactId>slf4j-log4j12</artifactId>
             <version>1.7.30</version>
         </dependency>
     </dependencies>
    
    • 在项目的 src/main/resources 目录下,新建一个文件,命名为 “log4j.properties”,在文件中填入
     log4j.rootLogger=INFO, stdout  
     log4j.appender.stdout=org.apache.log4j.ConsoleAppender  
     log4j.appender.stdout.layout=org.apache.log4j.PatternLayout  
     log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n  
     log4j.appender.logfile=org.apache.log4j.FileAppender  
     log4j.appender.logfile.File=target/spring.log  
     log4j.appender.logfile.layout=org.apache.log4j.PatternLayout  
     log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
    
    • 创建包名:com.atguigu.mapreduce.wordcount
  • 编写程序

    • 编写 Mapper 类
     package com.atguigu.mapreduce.wordcount;
     import java.io.IOException;
     import org.apache.hadoop.io.IntWritable;
     import org.apache.hadoop.io.LongWritable;
     import org.apache.hadoop.io.Text;
     import org.apache.hadoop.mapreduce.Mapper;
     ​
     public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
       
       Text k = new Text();
       IntWritable v = new IntWritable(1);
       
       @Override
       protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
         
         // 1 获取一行
         String line = value.toString();
         
         // 2 切割
         String[] words = line.split(" ");
         
         // 3 输出
         for (String word : words) {
           
           k.set(word);
           context.write(k, v);
         }
       }
     }
    
    • 编写 Reducer 类
     package com.atguigu.mapreduce.wordcount;
     import java.io.IOException;
     import org.apache.hadoop.io.IntWritable;
     import org.apache.hadoop.io.Text;
     import org.apache.hadoop.mapreduce.Reducer;
     ​
     public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{
     ​
     int sum;
     IntWritable v = new IntWritable();
     ​
       @Override
       protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {
         
         // 1 累加求和
         sum = 0;
         for (IntWritable count : values) {
           sum += count.get();
         }
         
         // 2 输出
              v.set(sum);
         context.write(key,v);
       }
     }
    
    • 编写 Driver 驱动类
     package com.atguigu.mapreduce.wordcount;
     import java.io.IOException;
     import org.apache.hadoop.conf.Configuration;
     import org.apache.hadoop.fs.Path;
     import org.apache.hadoop.io.IntWritable;
     import org.apache.hadoop.io.Text;
     import org.apache.hadoop.mapreduce.Job;
     import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
     import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
     ​
     public class WordCountDriver {
     ​
       public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
     ​
         // 1 获取配置信息以及获取job对象
         Configuration conf = new Configuration();
         Job job = Job.getInstance(conf);
     ​
         // 2 关联本Driver程序的jar
         job.setJarByClass(WordCountDriver.class);
     ​
         // 3 关联Mapper和Reducer的jar
         job.setMapperClass(WordCountMapper.class);
         job.setReducerClass(WordCountReducer.class);
     ​
         // 4 设置Mapper输出的kv类型
         job.setMapOutputKeyClass(Text.class);
         job.setMapOutputValueClass(IntWritable.class);
     ​
         // 5 设置最终输出kv类型
         job.setOutputKeyClass(Text.class);
         job.setOutputValueClass(IntWritable.class);
         
         // 6 设置输入和输出路径
         FileInputFormat.setInputPaths(job, new Path(args[0]));
         FileOutputFormat.setOutputPath(job, new Path(args[1]));
     ​
         // 7 提交job
         boolean result = job.waitForCompletion(true);
         System.exit(result ? 0 : 1);
       }
     }
    
  • 本地测试

    • 需要首先配置好 HADOOP_HOME 变量以及 Windows 运行依赖
    • 在 IDEA/Eclipse 上运行程序

12 Hadoop 序列化

12.1 序列化概述

  • 什么是序列化

    • 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。
    • 反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象
  • 为什么要序列化

    • 一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。
    • 然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机
  • 为什么不用 Java 的序列化

    • Java 的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,Header,继承体系等),不便于在网络中高效传输。
    • 所以,Hadoop自己开发了一套序列化机制(Writable)。
  • Hadoop 序列化特点

    • 紧凑:高效使用存储空间
    • 快速:读写数据的额外开销小
    • 互操作:支持多语言的交互

12.2 自定义bean对象实现序列化接口(Writable)

  • 在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个 bean 对象,那么该对象就需要实现序列化接口。

  • 具体实现 bean 对象序列化步骤如下7步。

    • (1)必须实现 Writable 接口
    • (2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造
     public FlowBean() {
       super();
     }
    
    • (3)重写序列化方法
     @Override
     public void write(DataOutput out) throws IOException {
       out.writeLong(upFlow);
       out.writeLong(downFlow);
       out.writeLong(sumFlow);
     }
    
    • (4)重写反序列化方法
     @Override
     public void readFields(DataInput in) throws IOException {
       upFlow = in.readLong();
       downFlow = in.readLong();
       sumFlow = in.readLong();
     }
    
    • (5)注意反序列化的顺序和序列化的顺序完全一致
    • (6)要想把结果显示在文件中,需要重写 toString() ,可用 "\t" 分开,方便后续用。
    • (7)如果需要将自定义的 bean 放在 key 中传输,则还需要实现 Comparable 接口,因为MapReduce框中的 Shuffle 过程要求对 key 必须能排序。详见后面排序案例。

12.3 序列化案例实操

  • 需求

  • 需求分析

  • 编写 MapReduce 程序

    • 编写流量统计的 Bean对象
     package com.atguigu.mapreduce.writable;
     ​
     import org.apache.hadoop.io.Writable;
     import java.io.DataInput;
     import java.io.DataOutput;
     import java.io.IOException;
     ​
     //1 继承Writable接口
     public class FlowBean implements Writable {
     ​
         private long upFlow; //上行流量
         private long downFlow; //下行流量
         private long sumFlow; //总流量
     ​
         //2 提供无参构造
         public FlowBean() {
         }
     ​
         //3 提供三个参数的getter和setter方法
         public long getUpFlow() {
             return upFlow;
         }
         public void setUpFlow(long upFlow) {
             this.upFlow = upFlow;
         }
         
         public long getDownFlow() {
             return downFlow;
         }
         public void setDownFlow(long downFlow) {
             this.downFlow = downFlow;
         }
         
         public long getSumFlow() {
             return sumFlow;
         }
         public void setSumFlow(long sumFlow) {
             this.sumFlow = sumFlow;
         }
     ​
         public void setSumFlow() {
             this.sumFlow = this.upFlow + this.downFlow;
         }
     ​
         //4 实现序列化和反序列化方法,注意顺序一定要保持一致
         @Override
         public void write(DataOutput dataOutput) throws IOException {
             dataOutput.writeLong(upFlow);
             dataOutput.writeLong(downFlow);
             dataOutput.writeLong(sumFlow);
         }
     ​
         @Override
         public void readFields(DataInput dataInput) throws IOException {
             this.upFlow = dataInput.readLong();
             this.downFlow = dataInput.readLong();
             this.sumFlow = dataInput.readLong();
         }
     ​
         //5 重写ToString
         @Override
         public String toString() {
             return upFlow + "\t" + downFlow + "\t" + sumFlow;
         }
     }
    
    • 编写Mapper类
     package com.atguigu.mapreduce.writable;
     ​
     import org.apache.hadoop.io.LongWritable;
     import org.apache.hadoop.io.Text;
     import org.apache.hadoop.mapreduce.Mapper;
     import java.io.IOException;
     ​
     public class FlowMapper extends Mapper<LongWritable, Text, Text, FlowBean> {
         private Text outK = new Text();
         private FlowBean outV = new FlowBean();
     ​
         @Override
         protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
     ​
             //1 获取一行数据,转成字符串
             String line = value.toString();
     ​
             //2 切割数据
             String[] split = line.split("\t");
     ​
             //3 抓取我们需要的数据:手机号,上行流量,下行流量
             String phone = split[1];
             String up = split[split.length - 3];
             String down = split[split.length - 2];
     ​
             //4 封装outK outV
             outK.set(phone);
             outV.setUpFlow(Long.parseLong(up));
             outV.setDownFlow(Long.parseLong(down));
             outV.setSumFlow();
     ​
             //5 写出outK outV
             context.write(outK, outV);
         }
     }
    
    • 编写 Reducer类
     package com.atguigu.mapreduce.writable;
     ​
     import org.apache.hadoop.io.Text;
     import org.apache.hadoop.mapreduce.Reducer;
     import java.io.IOException;
     ​
     public class FlowReducer extends Reducer<Text, FlowBean, Text, FlowBean> {
         private FlowBean outV = new FlowBean();
         @Override
         protected void reduce(Text key, Iterable<FlowBean> values, Context context) throws IOException, InterruptedException {
     ​
             long totalUp = 0;
             long totalDown = 0;
     ​
             //1 遍历values,将其中的上行流量,下行流量分别累加
             for (FlowBean flowBean : values) {
                 totalUp += flowBean.getUpFlow();
                 totalDown += flowBean.getDownFlow();
             }
     ​
             //2 封装outKV
             outV.setUpFlow(totalUp);
             outV.setDownFlow(totalDown);
             outV.setSumFlow();
     ​
             //3 写出outK outV
             context.write(key,outV);
         }
     }
    
    • 编写Driver驱动类
     package com.atguigu.mapreduce.writable;
     ​
     import org.apache.hadoop.conf.Configuration;
     import org.apache.hadoop.fs.Path;
     import org.apache.hadoop.io.Text;
     import org.apache.hadoop.mapreduce.Job;
     import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
     import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
     import java.io.IOException;
     ​
     public class FlowDriver {
         public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
     ​
             //1 获取 job对象
             Configuration conf = new Configuration();
             Job job = Job.getInstance(conf);
     ​
             //2 关联本 Driver类
             job.setJarByClass(FlowDriver.class);
     ​
             //3 关联 Mapper和Reducer
             job.setMapperClass(FlowMapper.class);
             job.setReducerClass(FlowReducer.class);
             
         //4 设置Map端输出KV类型
             job.setMapOutputKeyClass(Text.class);
             job.setMapOutputValueClass(FlowBean.class);
             
         //5 设置程序最终输出的KV类型
             job.setOutputKeyClass(Text.class);
             job.setOutputValueClass(FlowBean.class);
             
         //6 设置程序的输入输出路径
             FileInputFormat.setInputPaths(job, new Path("D:\inputflow"));
             FileOutputFormat.setOutputPath(job, new Path("D:\flowoutput"));
             
         //7 提交Job
             boolean b = job.waitForCompletion(true);
             System.exit(b ? 0 : 1);
         }
     }