大数据 Shuffle 原理与实践｜青训营笔记这是我参与「第四届青训营」笔记创作活动的第4天 shuffle概述

这是我参与「第四届青训营」笔记创作活动的第4天

shuffle概述

MapReduce 的三个阶段

为什么shuffle对性能非常重要？

shuffle表示了不同分区数据交换的过程，不同的shuffle策略性能差异较大。目前在各个引擎中shuffle都是优化的重点，在spark框架中，shuffle是支撑spark进行大规模复杂数据处理的基石。

spark中会产生shuffle的算子分为4类

算子内部的依赖关系 ShuffleDependency

ShuffleDependency 的构造

Hash Shuffle

Sort Shuffle

Shuffle读数据：每个reduce task分别获取所有map task生成的属于自己的片段

Shuffle过程的触发流程：Collect Action -> Submit Job -> Get Dependencies -> RegisterShuffle

Register Shuffle时做的最重要的事情是根据不同条件创建不同的 Shuffle Handle
三种ShuffleHandle对应了三种不同的ShuffleWriter的实现
- BypassMergeSortShuffleWriter：BypassMergeSortShuffleHandle
- UnsafeShuffleWriter：SerializedShuffleHandle
- SortSHuffleWriter：BaseShuffleHandle

spark3.2中引入的

之前Shuffle的问题

为什么需要push shuffle?

Avg IO size 太小，造成了大量的随机IO，严重影响磁盘的吞吐。M*R次读请求，造成大量的网络连接，影响稳定性