这是参加青训营的第七天。了解并理解认识到了大数据用shuffle原理以及实践应用

一、 shuffle概述

Mapreduce
- 《MapReduce:Simplified Data Processing on Large Clusters》

经典shuffle过程
- map阶段
- shuffle阶段
- reduce阶段

为什么shuffle如此重要
- 数据shuffle表示了不同分区数据交换的过程，不同的shuffle策略性能差异较大。目前在各个引擎中shuffle都是优化的重点，在spark框架中，shuffle是支撑spark进行大规模复杂数据处理的基石。

二、shuffle算子

常见的触发shuffle的算子
- repartition
  - coalesce、repartition
- ByKey
  - groupByKey、reduceByKey、aggregateByKey、combineByKey、sortByKeysortBy
- Join
  - cogroup、join

算子使用例子

val text = sc.textFile("mytextfile.txt")
val counts = text
  .flatMap(line => line.split(" "))
  .map(word => (word,1))
  .reduceByKey(_+_)
counts.collect
复制代码

Shuffle Dependency
- 创建会产生shuffle的RDD时，RDD会创建Shuffle Dependency来描述Shuffle相关的信息
- 构造函数
  - A single key-value pair RDD, i.e. RDD[Product2[K, V]],
  - Partitioner (available as partitioner property),
  - Serializer,
  - Optional key ordering (of Scala’s scala.math.Ordering type),
  - Optional Aggregator,
  - mapSideCombine flag which is disabled (i.e. false) by default.

Partitioner
- 用来将record映射到具体的partition的方法
- 接口
  - numberPartitions
  - getPartition

Aggregator
- 在map侧合并部分record的函数
- 接口
  - createCombiner：只有一个value的时候初始化的方法
  - mergeValue：合并一个value到Aggregator中
  - mergeCombiners：合并两个Aggregator

三、 shuffle过程

spark中的shuffle变迁过程
- HashShuffle
  - 优点：不需要排序
  - 缺点：打开，创建的文件过多
- SortShuffle
  - 优点：打开的文件少、支持map-side combine
  - 缺点：需要排序
- TungstenSortShuffle
  - 优点：更快的排序效率，更高的内存利用效率
  - 缺点：不支持map-side combine

三种ShuffleHandle对应了三种不同的ShuffleWriter的实现
- BypassMergeSortShuffleWriter：HashShuffle
- UnsafeShuffleWriter：TunstonShuffle
- SortSHuffleWriter：SortShuffle

ShuffleReader网络请求流程

使用netty作为网络框架提供网络服务，并接受reducetask的fetch请求

首先发起openBlocks请求获得streamId，然后再处理stream或者chunk请求

ShuffleBlockFetchIterator
- 区分local和remote节省网络消耗
- 防止OOM
  - maxBytesInFlight
  - maxReqsInFlight
  - maxBlocksInFlightPerAddress
  - maxReqSizeShuffleToMem
  - maxAttemptsOnNettyOOM

External Shuffle Service

为了解决Executor为了服务数据的fetch请求导致无法退出问题，我们在每个节点上部署一个External Shuffle Service，这样产生数据的Executor在不需要继续处理任务时，可以随意退出。

shuffle优化

避免shuffle ——使用broadcast替代join

//传统的join操作会导致shuffle操作。
//因为两个RDD中，相同的key都需要通过网络拉取到一个节点上，由一个task进行join操作。
val rdd3 = rdd1.join(rdd2)

//Broadcast+map的join操作，不会导致shuffle操作。
//使用Broadcast将一个数据量较小的RDD作为广播变量。
val rdd2Data = rdd2.collect()
val rdd2DataBroadcast = sc.broadcast(rdd2Data)

//在rdd1.map算子中，可以从rdd2DataBroadcast中，获取rdd2的所有数据。
//然后进行遍历，如果发现rdd2中某条数据的key与rdd1的当前数据的key是相同的，那么就判定可以进行join。
//此时就可以根据自己需要的方式，将rdd1当前数据与rdd2中可以连接的数据，拼接在一起（String或Tuple）。
val rdd3 = rdd1.map(rdd2DataBroadcast...)

//注意，以上操作，建议仅仅在rdd2的数据量比较少（比如几百M，或者一两G）的情况下使用。
//因为每个Executor的内存中，都会驻留一份rdd2的全量数据。
复制代码

使用可以map-side预聚合的算子
Shuffle 参数优化
- spark.default.parallelism && spark.sql.shuffle.partitions
- spark.hadoopRDD.ignoreEmptySplits
- spark.hadoop.mapreduce.input.fileinputformat.split.minsize
- spark.sql.file.maxPartitionBytes
- spark.sql.adaptive.enabled && spark.sql.adaptive.shuffle.targetPostShuffleInputSize
- spark.reducer.maxSizeInFlight
- spark.reducer.maxReqsInFlight spark.reducer.maxBlocksInFlightPerAddress
Shuffle 倾斜优化
- 什么叫倾斜？有什么危害
- 解决倾斜方法举例
  - 增大并发度
  - AQE

零拷贝
- sendfile+DMA gather copy

Netty 零拷贝
- 可堆外内存，避免 JVM 堆内存到堆外内存的数据拷贝。
- CompositeByteBuf 、 Unpooled.wrappedBuffer、 ByteBuf.slice ，可以合并、包装、切分数组，避免发生内存拷贝
- Netty 使用 FileRegion 实现文件传输，FileRegion 底层封装了 FileChannel#transferTo() 方法，可以将文件缓冲区的数据直接传输到目标 Channel，避免内核缓冲区和用户态缓冲区之间的数据拷贝

四、Push Shuffle

上一部分所讲的shuffle过程存在哪些问题？
- 数据存储在本地磁盘，没有备份
- IO 并发：大量 RPC 请求（M*R）
- IO 吞吐：随机读、写放大（3X）
- GC 频繁，影响 NodeManager

为了优化该问题，有很多公司都做了思路相近的优化，push shuffle
- Facebook： cosco
- LinkedIn：magnet
- Uber：Zeus
- Alibaba： RSS
- Tencent： FireStorm
- Bytedance： Cloud Shuffle Service
- Spark3.2： push based shuffle

Magnet主要流程

主要为边写边push的模式，在原有的shuffle基础上尝试push聚合数据，但并不强制完成，读取时优先读取push聚合的结果，对于没有来得及完成聚合或者聚合失败的情况，则fallback到原模式。

Cloud Shuffle Service架构
- Zookeeper WorkerList [服务发现]
- CSS Worker [Partitions / Disk | Hdfs]
- Spark Driver [集成启动 CSS Master]
- CSS Master [Shuffle 规划 / 统计]
- CSS ShuffleClient [Write / Read]
- Spark Executor [Mapper + Reducer]

Cloud Shuffle Service 读写流程

Cloud Shuffle Service 支持AQE
- 在聚合文件时主动将文件切分为若干块，当触发AQE时，按照已经切分好的文件块进行拆分

五、总结

深刻理解了shuffle的重要性以及在实际运用中要如何实现和在不同状况下运用不同的shuffle对项目简化。并对spark中的宽依赖和窄依赖能够掌握。对shuffle在性能的影响的重要性要能够把握。

大数据 Shuffle 原理与实践|青训营笔记

一、 shuffle概述

二、shuffle算子

三、 shuffle过程

四、Push Shuffle

五、总结