spark - 再试一次Again的收藏集 - 掘金

spark

再试一次Again

更多收藏集

4篇文章 · 0订阅

Spark的Shuffle是怎么回事

Shuffle的中文含义是混洗，官方定义是：一种让数据重新分布以使得某些数据被放在同一分区里的一种机制。Shuffle的过程中，存在着大量的网络消耗传输数据，会在磁盘上产生大量的中间文件，在平时的工作中了解shuffle的运行机制能帮助我们写出更优秀的代码。此篇文章从shu…

西兰花是真的菜
5年前
3.1k
3
评论

Spark的Shuffle总结分析

Shuffle就是对数据进行重组，由于分布式计算的特性和要求，在实现细节上更加繁琐和复杂。在MapReduce框架，Shuffle是连接Map和Reduce之间的桥梁，Map阶段通过shuffle读取数据并输出到对应的Reduce，而Reduce阶段负责从Map端拉取数据并进…

说出你的愿望吧
6年前
4.5k
51
20

Spark 常规性能调优之并行度调节、广播大变量、Kryo序列化

常规性能调优四：并行度调节 Spark作业中的并行度指各个stage的task的数量。如果并行度设置不合理而导致并行度过低，会导致资源的极大浪费

摸鱼专家
4年前
6.9k
131
评论

Spark 常规性能调优之并行度调节、广播大变量、Kryo序列化

一篇文章搞清spark任务如何执行

在spark中，有两个重要的主角是绕不开的，driver和executor，他们的结构呈一主多从模式，driver就是那个单身狗，控制欲很强，权利也很大，每天独自一人没别的事，就想法设法的指挥着手下一堆executor到处干活。他们分工明确，组织结构简单，共同支撑起了spa…

西兰花是真的菜
5年前
7.9k
9
评论