Spark Shuffle原理 | 青训营笔记这是我参与「第四届青训营」笔记创作活动的第八天。 Shuffle Shuf

这是我参与「第四届青训营」笔记创作活动的第八天。

Shuffle

在MapReduce框架中，Shuffle起到在Map阶段和Reduce阶段间进行数据交换的作用，Shuffle过程往往伴随着大量的磁盘和网络IO，因此对其进行优化在系统性能优化中起到重要作用。

在Spark中，在存在宽依赖，即父RDD的分区可能对应多个子RDD的分区时便需要进行Shuffle操作。

常见的产生Shuffle的算子

通过对数据的主键计算得到hash值，再对下游reduce算子的数量取模便得到了数据所属的分区。

优点相较于sort shuffle减少了排序带来的内存等资源消耗缺点

优点

对于很多不需要sort的操作通过bypass机制进行shuffle

在各个节点上存在的ESS agent为下游的Shuffle Reader提供服务优化了Spark作业资源利用。

通过DMA（Direct Memory Access）技术，不通过CPU而直接与内存进行数据交换，减少了数据copy