大数据Shuffle原理与实践 | 青训营笔记这是我参与「第四届青训营」笔记创作活动的第6天 1.Shuffle概述

这是我参与「第四届青训营」笔记创作活动的第6天

1.Shuffle概述

Shuffle是什么，为什么需要Shuffle，Shuffle的基本过程是怎么样的

批计算的发展流程：

在大数据场景下，数据Shuffle表示了不同分区数据交换的过程，不同的shuffle策略性能差异大，目前在各个引擎中shuffle都是优化的重点，在spark框架中，shuffle是支撑spark进行大规模复杂数据处理的基石

介绍Spark中常用的Shuffle算子

spark中会产生shuffle的算子大概可以分成4类

算子会产生shuffle是因为它需要做数据移动，在spark中，它被抽象为宽依赖和窄依赖

算子内部的依赖关系

Shuffle Dependency构造函数包含的变量

Shuffle Dependency构造-Partitioner

负责把key映射成一个数字，这个数字代表某一个具体的分区
Partitioner是一个抽象类，有两个接口：
- numberPartitions（分区个数）
- getPartition（输入为key，输出为key对应的分区）
经典实现
- HashPartitioner（大多数情况下的默认实现），在构造时需要传入总的partition的数量

Shuffle Depenfdency构造-Aggregator

是shuffle时重要的性能优化器：把部分reduce的工作让map来做
三个方法
- createCombiner：只有一个value时初始化的方法
- mergeValue：合并一个value到Aggregator中
- mergeCombiners：合并两个Aggregator

Spark中shuffle的核心原理

每个partition会映射到一个独立的文件，每个Map Task都会为Partition创建一个buffer，写满了就flush到磁盘里，最终会生成M*R个文件

随着数据的增大，会对文件系统造成压力，不仅生成的文件多，同时打开的文件也多

Hash Shuffle-写数据优化

每个task生成一个包含所有partition数据的文件，不再给每个partition一个shuffle，当内存满了，通过排序的方式，将相同partition的数据放在一起

每个reduce task分别获取所有map task生成的属于自己的片段

前五行只是记录运算过程的对象，不会触发任何计算，只有当执行collect（action算子）时才会触发计算，触发流程如下图所示：

Writer实现-BypassMergeShuffleWriter

Writer实现-UnsafeShuffleWriter

使用类似内存页储存序列化数据
数据写入后不再反序列化
Unsafe：使用的是对外内存，而不是Java本身的HBase；使用对外内存的原因：没有Java对象模型内存开销，没有垃圾回收的开销，这在性能上是更优的
它把对外内存分成若干内存页，一个内存页写满就新建一个内存页，直到内存写满，spill到磁盘上，最后merge会将spill文件和内存文件进行merge
对于对外内存的管理
- record序列化往对外内存写时，还会在堆内有一个Long Array记录原信息（record属于哪个partition，记录在第几页，内存页偏移量多少）
- spill后会触发排序，因为要把相同partition的放在一起，这个排序只发生在array上，而不管记录在对外内存的record，数据不移动

Writer实现-Sort Shuffle Writer