自定义InputFormat案例-(合并文件)

75 阅读1分钟

引言

无论HDFS还是MapReduce,在处理小文件时效率都是非常低,但又难免面临处理大量小文件的场景,此时,就需要有相应的解决方案。可以自定义InputFormat实现小文件的合并。

需求

将多个小文件合并成一个SequenceFile文件(SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式),SequenceFile里面存储着多个文件,存储的形式为路径+名称的key,文件内容为value。

1、输入数据

三个txt文件
在这里插入图片描述

2、期望输出文件格式

在这里插入图片描述

工程代码

工程结构\