这是我参与「第四届青训营」笔记创作活动的的第5天

Shuffle概述

MapReduce概述

2004年谷歌发布了《MapReduce:Simplified Data Processing on LargeClusters》论文
在开源实现的MapReduce中，存在Map、Shuffle、Reduce三个阶段。

上图展示了一个典型的 mapreduce 过程。有一大堆数据，如果我们用单机去分析这些数据的话，可能一周或者一个月的时间都没有办法分析完。然后怎么办呢？我们把这些数据就拆分成若干的小份，分散在很多机器上去做并发处理。假设我把这些数据拆成单份只有 500 兆的数据。那在 1 在一个单机上去处理 500 兆的数据，是可以很快的处理完的。然后第一步的这个分布式的处理过程我们叫做map，然后因为每份数据都可能包含任意的颜色，所以我们需要对不同颜色的数据分别处理。在所有这些任务完成处理完成之后，为了把所有把颜色归并到一起，我们就需要移动数据。然后再把相同颜色的数据移动到一起之后，又可以把这些数据分散在很多机器上去做并发处理了。

第二步，这个分成单份数据做的这个处理我们叫做 reduce 在中间移动数据的这一步我们就是 shuffle，值得一提的是在这个 map 和 reduce 的过程中被分成一块单独去处理的这个数据，我们一般把它叫做partition，它是在 map 阶段的基础上进行数据移动。然后我们把每一个 map 处理好的数据再去做移动，然后把相同颜色的数据放到一起，为后续的 reduce 阶段做准备。第三个阶段就是 reduce 阶段。这个时候我们已经把相同颜色的数据放到一起了，就是在 reduce 阶段对移动后的数据继续进行处理。然后这一步这一步依然是在单件上处理一小份数据，最终我们可以拿到就是不同颜色的一个。 sum 值。

为什么Shuffle对性能非常重要

MR次网络连接
大量的数据移动
数据丢失风险

数据在移动的过程中以及在计算的过程中都是有可能会丢失的，就是它是有丢失风险的。然后一旦这些数据丢失，我们就面临数据的重算。
可能存在大量的排序操作

我们需要在 map 阶段把不同颜色的数据区分开放到不同的位置，我们就需要对这些数据以颜色来进行排序。
大量的数据序列化、反序列化操作

要把 Java 或者是某一个内存中的一个直观的数据转化成一个二进制的数据流，然后放到文件中，然后我们再从文件中把它读到内存里面来，然后变成一重新变成一个对象。这个是序列化和反序列化操作，也会消耗大量的 CPU
数据压缩

如果我们的数据量非常大，我们在存储的过程中可能还涉及到数据的压缩与解压缩，这个也会消耗大量的 CPU

在大数据场景下，数据shuffle表示了不同分区数据交换的过程，不同的shuffle策略性能差异较大。 目前在各个引擎中shuffle都是优化的重点,在spark框架中, shuffle是支撑spark进行大规模复杂 数据处理的基石。

Shuffle算子

Spark中会产生Shuffle的算子大概可以分为4类

Spark中队shuffle的抽象：宽依赖、窄依赖

窄依赖:父RDD的每个分片至多被子RDD中的-一个分片所依赖
宽依赖:父RDD中的分片可能被子RDD中的多个分片所依赖

算子内部的依赖关系

ShuffleDependency
- CoGroupedRDD
  - Cogroup
    - fullOuterJoin、rightOuterJoin、 leftOuterJoin
    - join
  - ShuffledRDD
    - combineByKeyWithClassTag
      - combineByKey
      - reduceByKey
    - Coalesce
    - SortByKey
      - sortBy