7月31日打卡,今日学习了《Spark的Shuffle总结分析》。Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂。本文介绍了两类hash Shuffle和Sort Shuffle,把shuffle的机制原理介绍的非常详细,推荐学习。
1