spark - hahachiu的收藏集 - 掘金

spark

更多收藏集

17篇文章 · 0订阅

Spark 之运行架构

1. 运行架构 Spark框架的核心是一个计算引擎，它采用了标准 master-slave 的结构。 Spark执行时的基本结构。图中的Driver表示master，负责管理整个集群中的作业任务调度。

摸鱼专家
4年前
6.7k
117
评论

Spark 之 Shuffle调优

Shuffle调优一：调节map端缓冲区大小在Spark任务运行过程中，如果shuffle的map端处理的数据量比较大，但是map端缓冲的大小是固定的，可能会出现map端缓冲数据频繁spill溢

摸鱼专家
4年前
6.3k
144
2

Spark 之 Shuffle调优

Spark 之算子调优（二）

算子调优四：filter与coalesce的配合使用在Spark任务中我们经常会使用filter算子完成RDD中数据的过滤，在任务初始阶段，

摸鱼专家
4年前
6.5k
141
评论

Spark 常规性能调优之并行度调节、广播大变量、Kryo序列化

常规性能调优四：并行度调节 Spark作业中的并行度指各个stage的task的数量。如果并行度设置不合理而导致并行度过低，会导致资源的极大浪费

摸鱼专家
4年前
6.9k
131
评论

Spark 常规性能调优之并行度调节、广播大变量、Kryo序列化

Spark 常规性能调优之最优资源配置

常规性能调优一：最优资源配置 Spark性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策

摸鱼专家
4年前
7.3k
116
2

Spark 常规性能调优之 RDD优化、调节本地化等待时长

宝我今天跟文了，跟的想你的文，常规性能调优二：RDD优化 RDD复用在对RDD进行算子时，要避免相同的算子和计算逻辑之下对RDD进行重复的计算对上图中的RDD计算架构进

摸鱼专家
4年前
7.0k
129
3

Spark 常规性能调优之 RDD优化、调节本地化等待时长

Spark 之解决数据倾斜（二）

数据倾斜解决方案三：过滤导致倾斜的key 如果在Spark作业中允许丢弃某些数据，那么可以考虑将可能导致数据倾斜的key进行过滤，滤除可能导致数据倾斜的key对应的数据，这样，在Spark作业中就不会

摸鱼专家
4年前
7.0k
142
1

Spark 之解决数据倾斜（一）

介绍 Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题，是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。例如，reduce点一共要处理100万条数据

摸鱼专家
4年前
7.2k
135
评论

Spark 之解决数据倾斜（三）

数据倾斜解决方案六：使用随机key实现双重聚合当使用了类似于groupByKey、reduceByKey这样的算子时，可以考虑使用随机key实现双重聚合首先，通过map算子给每个数据的key添加随机

摸鱼专家
4年前
7.2k
140
评论

Spark 之解决数据倾斜（三）

Spark 之算子调优（一）

、算子调优一：mapPartitions 普通的map算子对RDD中的每一个元素进行操作，而mapPartitions算子对RDD中每一个分区进行操作。如果是普通的map算子，假设一个partit

摸鱼专家
4年前
7.6k
142
评论