这是我参与「第四届青训营」笔记创作活动的第10天。

第六节课「大数据 Shuffle 原理与实践」的内容主要包含 4 个方面：Shuffle 概述、Shuffle 算子、Shuffle 过程、Push Shuffle。这篇文章包括 Shuffle 概述、Shuffle 算子、Shuffle 过程的内容。

Shuffle 概述

在开源实现的 MapReduce 中，存在 Map、Shuffle、Reduce 三个阶段。

数据 shuffle 表示了不同分区数据交换的过程，不同的 shuffle 策略性能差异较大。目前在各个引擎中 shuffle 都是优化的重点，在 spark 框架中，shuffle 是支撑 spark 进行大规模复杂数据处理的基石。

Shuffle 算子

Partitioner
- 用来将 record 映射到具体的 partition 的方法
- 接口
  - numberPartitions
  - getPartition
Aggregator
- 在map侧合并部分record的函数
- 接口
  - createCombiner：只有一个 value 的时候初始化的方法
  - mergeValue：合并一个 value 到 Aggregator 中
  - mergeCombiners：合并两个 Aggregator

spark中的shuffle变迁过程
- HashShuffle
  - 优点：不需要排序
  - 缺点：打开，创建的文件过多
- SortShuffle
  - 优点：打开的文件少、支持map-side combine
  - 缺点：需要排序
- TungstenSortShuffle
  - 优点：更快的排序效率，更高的内存利用效率
  - 缺点：不支持map-side combine
Register Shuffle
- 由 action 算子触发 DAG Scheduler 进行 shuffle register
- Shuffle Register 会根据不同的条件决定注册不同的 ShuffleHandle

了解了 Shuffle 概述、Shuffle 算子和 Shuffle 过程。