MapReduce中的Combiner组件由于map端的并行度与数据相关，数据越多maptask的并行度越高，导致所有的

1、介绍

由于map端的并行度与数据相关，数据越多maptask的并行度越高，导致所有的计算任务全部在reducetask上，直接导致reduce节点压力过大。

如果map可以帮reduce分担一些压力，reduce端的性能肯定会提高，这时有了Combiner组件

Combiner会减少reduce端的数据量，在map端做了一次合并，减少了shuffle过程的数据量，提高分布式计算程序的性能，Combiner帮助reduce分担压力，并且Combiner的业务逻辑和reduce中的业务逻辑一样

默认情况下没有Combine组件

自定义Combine：