这是我参与「第四届青训营」笔记创作活动的第6天

大数据 Shuffle 原理与实践

1. Shuffle概述

经典shuffle过程：

Map、Shuffle、Reduce三个阶段：

Map阶段，是在单机上进行的针对一小块数据的计算过程,就是分类
Shuffle 阶段，在map阶段的基础上，进行数据移动，为后续的reduce阶段做准备，就是shuffle将同类型的数据进行合并
Reduce阶段，对移动后的数据进行处理，依然是在单机上处理一小份数据，就是对Shuffle合并后的数据进行sum值

Why Shuffle对性能非常重要

M*R次网络连接
大量的数据移动（M*R次数据移动）
数据丢失风险（移动和计算的过程中，有丢失的风险，面临数据重算）
可能存在大量的排序操作
大量的数据序列化、反序列化操作（会消耗大量cpu）
数据压缩（在存储大量数据过程中，压缩与解压缩也会占用大量CPU）

总结：

MapReduce->Spark-> Spark3.2

数据shuffle表示了不同分区数据交换的过程，不同的shuffle策略性能差异较大。目前在各个引擎中shuffle都是优化的重点，在spark框架中，shuffle是支撑spark进行大规模复杂数据处理的基石

2. Shuffle算子

Shuffle算子分类

常见的触发shuffle的算子：

repartition:重新改变分区
ByKey：把Key聚合到一起
Join：没有在一起的数据，放在一起
Distinct：特殊ByKey

Shuffle算子应用

Spark源码中RDD的单元测试

Spark源码中PairRDDFunctions的单元测试

val text = sc.textFile("mytextfile.txt")
val counts = text
  .flatMap(line => line.split(" "))
  .map(word => (word,1))
  .reduceByKey(_+_)
counts.collect

Spark中对shuffle的抽象 - 宽依赖、窄依赖

窄依赖：父RDD的每个分片至多被子RDD中的一个分片所依赖

宽依赖：父RDD中的分片可能被子RDD中的多个分片所依赖

算子内部依赖：

ShuffleDependency
- CoGroupedRDD
  - Cogroup
    - fullOuterJoin、rightOuterJoin、leftOuterJoin
    - join
ShuffledRDD
- combineByKeyWithClassTag
  - combineByKey
  - reduceByKey
- Coalesce
- sortByKey
  - sortBy

Shuffle Dependency

创建会产生shuffle的RDD时，RDD会创建Shuffle Dependency来描述Shuffle相关的信息

Partitioner

负责把一个Key映射成一个数字，代表了某一个具体分区

两个接口：
- numberPartitions
- getPartition
经典实现： HashPartitioner

Aggregator

进行Shuffle时非常重要的性能优化器

createCombiner：只有一个value的时候初始化的方法
mergeValue：合并一个value到Aggregator中
mergeCombiners：合并两个Aggregator

3. Shuffle过程

Hash Shuffle - 写数据

每个 partition 会映射到一个独立的文件

缺点：生成文件太多，面临OM问题

Hash Shuffle - 写数据优化

每个 partition 会映射到一个文件片段

最后得到C*R个文件，C是CPU核数

缺点：依然会有OM问题

Sort shuffle:写数据

每个 task 生成一个包含所有 partiton 数据的文件

Shuffle - 读数据

每个 reduce task 分别获取所有 map task 生成的属于自己的片段

Shuffle过程的触发流程示例

Collect Action->SubmitJob->GetDependencies->RegisterShuffle

Shuffle Handle的创建

Shuffle Register会根据不同的条件决定注册不同的ShuffleHandle

Shuffle Handle与Shuffle Writer的对应关系

BypassMergeSortShuffleWriter：HashShuffle UnsafeShuffleWriter：TunstonShuffle SortSHuffleWriter：SortShuffle

Writer实现 - BypassMergeShuffleWriter

不需要排序，节省时间
写操作的时候会打开大量文件
类似于Hash Shuffle

Writer实现- UnsafeShuffleWriter（用了对外的内存）

使用类似内存页储存序列化数据
数据写入后不再反序列化

只根据 partition 排序 Long Array
数据不移动

Writer实现- SortShuffleWriter（不使用对外内存）

支持 combine
需要 combine 时，使用 PartitionedAppendOnlyMap ，本质是个 HashTable
不需要 combine 时 PartitionedPairBuffer 本质是个 array

Reader实现 - 网络时序图

使用基于 netty 的网络通信框架
位置信息记录在 MapOutputTracker 中主要会发送两种类型的请求：
- OpenBlocks 请求
- Chunk 请求或 Stream 请求

Reader 实现 - ShuffleBlockFetchIterator

区分 local 和 remote 节省网络消耗
防止 OOM
- maxBytesInFlight 限制数据块大小
- maxReqsInFlight 限制请求数量
- maxBlocksInFlightPerAddress 限制每一个地址上的Block数量
- maxReqSizeShuffleToMem 最大请求Size
- maxAttemptsOnNettyOOM 请求会造成对外内存OOM，控制OOM次数

Read 实现 - External Shuffle Service

ESS 作为一个存在于每个节点上的 agent 为所有 Shuffle Reader 提供服务，从而优化了 Spark 作业的资源利用率， MapTask在运行结束后可以正常退出

Shuffle优化使用的技术Zero Copy

不使用Zero Copy：

使用sendfile

DMA ( Direct Memory Access )：直接存储器存取，是指外部设备不通过 CPU 而直接与系充内存交换数据的接口技术。

使用sendfile+DMA gather copy

Shuffle优化使用的技术: Netty Zero Copy

可堆外内存，避兔 JVM 堆内存到堆外内存的数据拷贝
CompositeByteBuf、Unpooled.wrappedBufer、ByteBuf.slice，可以合并、包装、切分数组，避免发生内存拷贝
Netty 使用 FileRegion 实现文件传输， FileRegion 底层封装了 FileChannel#transferTo0方法，可以将文件缓冲区的数据直接传输到目标 Channel ，避兔内核缓冲区和用户态缓冲区之间的数据拷贝

常见问题

数据存储在本地磁盘，没有备份
IO 并发：大量 RPC 请求（ M * R )
IO 吞吐：随机读、写放大（3X)
GC 频繁，影响 NodeManager

shuffle优化

避兔 shuffle
- 使用 broadcast 替 join
使用可以map-side预聚合的算子

Shuffle 参数优化

spark.default.parallelism&&spark.sql.shuffle.partitions spark.hadoopRDD.ignoreEmptySplits
spark.hadoop.mapreduce.input.fileinputformat.split.minsize spark.sql.file.maxPartitionBytes
spark.sql.adaptive.enabled && spark.sql.adaptive.shuffle .targetPostShufflelnputSize
spark.reducer.maxSizelnFlight
spark.reducer.maxReqslnFlight
spark.reducer.maxBlockslnFlightPerAddress

Shuffle 倾斜优化

倾斜影响:

作业运行时间变长
Task OOM 导致作业失败

常见倾斜处理办法

提高并行度:

优点：足够简单
缺点：只缓解、不根治

Spark AQE Skew Join

AQE 根据 shuffle 文件统计数据自动检测倾斜数据，将那些倾斜的分区打散成小的子分区，然后各自进行 join

参数调整

ad show
number of files read :840,042
number of total tasks :5,553
size of files read :203.3 TiB
number of output rows :128,676,054,598

4. Push Shuffle

为什么需要Push Shuffle ?

Avg IO size太小，造成了大量的随机IO，严重影响磁盘的吞吐
M*R次读请求，造成大量的网络连接，影响稳定性

Push Shuffle的实现

Facebook：cosco
Linkdin：magnet
Uber：Zeus
Alibaba：RSS
Tencent：FireStorm
Bytedance：CSS
Spark3.2：push based shuffle

Magnet

1. 实现原理

Spark driver组件，协调整体的shuffle操作
map任务的shuffle writer过程完成后，增加了-个额外的操作push. merge,将数据复制一份推到远程shuffle服务上
magnet shuffle service是一个强化版的ESS。将隶属于同一个shuffle partition的block,会在远程传输到magnet后被merge到一个文件中
reduce任务从magnet shuffle service接收合并好的shuffle数据
bitmap:存储已merge的mapper id,防止重复merge
position offset:如果本次block没有正常merge,可以恢复到上一个block的位置
currentMapld:标识当前正在append的block,保证不同mapper 的block能依次append

2. 可靠性

如果Map task输出的Block没有成功Push到magnet上，并且反复重试仍然失败，则reduce task直接从ESS上拉取原始block数据
如果magnet上的block因为重复或者冲突等原因，没有正常完成merge的过程，则reduce task直接拉取未完成merge的block
如果reduce拉取已经merge好的block失败，则会直接拉取merge前的原始block本质上，magnet中维护了两份shuffle数据的副本

Cloud Shuffle Service架构

Zookeeper WorkerList (服务发现)
CSS Worker (Partitions / Disk | Hdfs)
Spark Driver (集成启动 CSS Master)
CSS Master (Shuffle 规划 / 统计)
CSS ShuffleClient (Write / Read)
Spark Executor (Mapper + Reducer)

课程总结

Shuffle 概述

什么是 shufle , shufle 的基本流程

为什么 shuffle 对性能景响非常重要

Shufle 算子

常见的 shufle 算子

理解宽依赖和窄依赖， ShuffleDependency 及其相关组件

Shuffle 过程

Spark 中 shufle 实现的历史

Spark 中主流版本的shuffle 写入和读取过程

Push shuffle

Magnet Push Shuffle 的设计思路

Cloud Shufle Service 的设计实现思路

大数据 Shuffle 原理与实践|青训营笔记