携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第30天,点击查看活动详情
MapReduce 读取和输出数据
InputFormat
运行 MapReduce 程序时,输入的文件格式包括:基于行的日志文件、二进制格式文件、数据库表等。那么,针对不同的数据类型,MapReduce 是如何读取这些数据的呢?
InputFormat 是 MapReduce 框架用来读取数据的类。InputFormat 常用子类:
- TextInputFormat(普通文本文件,MR 框架默认的读取实现类)
- KeyValueTextInputFormat(读取一行文本数据按照指定分隔符,把数据封装为 kv 类型)
- NLineInputFormat(读取数据按照行数进行划分分片)
- CombineTextInputFormat(合并小文件,避免启动过多 MapTask 任务)
- 自定义 InputFormat
1. CombineTextInputFormat 案例
MR 框架默认的 TextInputFormat 切片机制按文件划分切片,文件无论多小,都是单独一个切片,然后由一个 MapTask 处理,如果有大量小文件,就对应生成并启动大量的 MapTask,就会浪费很多初始化资源、启动回收等阶段。
CombineTextInputFormat 用于小文件过多的场景,它可以将多个小文件从逻辑上划分成一个切片,这样多个小文件可以交给一个 MapTask 处理,提高资源利用率。
使用方式:
// 如果不设置InputFormat,它默认用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);
//虚拟存储切片最大值设置4m
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);
- CombineTextInputFormat 切片原理
假设设置 setMaxInputSplitSize 值为 4M,有四个小文件:1.txt -->2M ;2.txt-->7M;3.txt-->0.3M;4.txt--->8.2M
虚拟存储过程:
把输入目录下所有文件大小,依次和设置的 setMaxInputSplitSize 值进行比较,如果不大于设置的最大值,逻辑上划分一个块。如果输入文件大于设置的最大值且大于两倍,那么以最大值切割一块;当剩余数据大小超过设置的最大值且不大于最大值 2 倍,此时将文件均分成 2 个虚拟存储块(防止出现太小切片)。比如如 setMaxInputSplitSize 值为 4M,输入文件大小为 8.02M,则先逻辑上分出一个 4M 的块。剩余的大小为 4.02M,如果按照 4M 逻辑划分,就会出现 0.02M 的非常小的虚拟存储文件,所以将剩余的 4.02M 文件切分成(2.01M 和 2.01M)两个文件。
-
2M,一个块
-
7M,大于 4 但是不大于 4 的 2 倍,则分为两块,一块 3.5M
切片过程:
-
判断虚拟存储的文件大小是否大于 setMaxInputSplitSize 值,大于等于则单独形成一个切片
-
如果不大于则跟下一个虚拟存储文件进行合并,共同形成一个切片。
-
按照之前输入文件:那 4 个文件经过虚拟存储过程后,有 7 个文件块:2M、3.5M、3.5M、0.3M、4M、2.1M、2.1M
-
合并之后最终形成 3 个切片:(2+3.5)M、(3.5+0.3+4)M、(2.1+2.1)M
2. 自定义 InputFormat
无论 HDFS 还是 MapReduce,在处理小文件时效率都非常低,但又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。可以自定义 InputFormat 实现小文件的合并。
案例实战
需求:
将多个小文件合并成一个 SequenceFile 文件(SequenceFile 文件是 Hadoop 用来存储二进制形式的 key-value 对的文件格式),SequenceFile 里面存储着多个文件,存储的形式为文件路径+名称为 key,文件内容为 value。
实现思路:
- 定义一个类继承 FileInputFormat
- 重写 isSplitable()指定为不可切分,重写 createRecordReader()方法,创建自己的 RecorderReader 对象
- 改变默认读取数据方式,实现一次读取一个完整文件作为 kv 输出
- Driver 指定使用自定义 InputFormat
代码参考:
public class CustomFileInputFormat extends FileInputFormat<Text, BytesWritable> {
@Override
protected boolean isSplitable(JobContext context, Path filename) {
return false;
}
@Override
public RecordReader<Text, BytesWritable> createRecordReader(InputSplit inputSplit, TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {
CustomRecordReader reader = new CustomRecordReader();
reader.initialize(inputSplit, taskAttemptContext);
return reader;
}
}
public class CustomRecordReader extends RecordReader <Text, BytesWritable> {
private Configuration conf;
private FileSplit split;
private boolean isProgress=true;
private BytesWritable value = new BytesWritable();
private Text key = new Text();
@Override
public void initialize(InputSplit inputSplit, TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {
this.split = (FileSplit) inputSplit;
this.conf = taskAttemptContext.getConfiguration();
}
@Override
public boolean nextKeyValue() throws IOException, InterruptedException {
if(isProgress){
FSDataInputStream fis = null;
try {
//定义缓存区
byte[] contents = new byte[(int) split.getLength()];
//获取文件系统
Path path = split.getPath();
FileSystem fs = path.getFileSystem(conf);
//读取数据
fis = fs.open(path);
//读取文件内容到缓存区
IOUtils.readFully(fis,contents,0,contents.length);
//输出文件内容
value.set(contents,0,contents.length);
//获取文件路径
String name = split.getPath().toString();
key.set(name);
} finally {
IOUtils.closeStream(fis);
}
isProgress = false;
return true;
}
return false;
}
@Override
public Text getCurrentKey() throws IOException, InterruptedException {
return key;
}
@Override
public BytesWritable getCurrentValue() throws IOException, InterruptedException {
return value;
}
@Override
public float getProgress() throws IOException, InterruptedException {
return 0;
}
@Override
public void close() throws IOException {
}
}
在 driver 里设置 inputFormatclass
job.setInputFormatClass(CustomFileInputFormat.class);
OutputFormat
OutputFormat:是 MapReduce 输出数据的基类,所有 MapReduce 的数据输出都实现了 OutputFormat 抽象类。下面介绍几种常见的 OutputFormat 子类
- TextOutputFormat
默认的输出格式是 TextOutputFormat,它把每条记录写为文本行。
- SequenceFileOutputFormat
将 SequenceFileOutputFormat 输出作为后续 MapReduce 任务的输入,这是一种好的输出格式,因为它的格式紧凑,很容易被压缩。
自定义 OutputFormat
案例实战
需求:
需要一个 MapReduce 程序根据奇偶数把结果输出到不同目录。
1
2
3
4
5
6
7
8
9
10
实现思路:
- 自定义一个类继承 FileOutPutFormat
- 改写 RecordWriter,重写 write 方法
代码参考:
public class CustomOutputFormat extends FileOutputFormat<Text, NullWritable> {
@Override
public RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext context) throws IOException, InterruptedException {
FileSystem fs = FileSystem.get(context.getConfiguration());
FSDataOutputStream oddOut = fs.create(new Path("e:/odd.log"));
FSDataOutputStream eventOut = fs.create(new Path("e:/event.log"));
return new CustomWriter(oddOut, eventOut);
}
}
public class CustomWriter extends RecordWriter<Text, NullWritable> {
private FSDataOutputStream oddOut;
private FSDataOutputStream evenOut;
public CustomWriter(FSDataOutputStream oddOut, FSDataOutputStream evenOut) {
this.oddOut = oddOut;
this.evenOut = evenOut;
}
@Override
public void write(Text text, NullWritable nullWritable) throws IOException, InterruptedException {
Integer number = Integer.valueOf(text.toString());
System.out.println(text.toString());
if(number%2==0){
evenOut.write(text.toString().getBytes());
evenOut.write("\r\n".getBytes());
}else {
oddOut.write(text.toString().getBytes());
oddOut.write("\r\n".getBytes());
}
}
@Override
public void close(TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {
IOUtils.closeStream(oddOut);
IOUtils.closeStream(evenOut);
}
}
设置 outputFormat 类
job.setOutputFormatClass(CustomOutputFormat.class);