小乖乖 - 污污的大大张的收藏集 - 掘金

小乖乖

污污的大大张

更多收藏集

7篇文章 · 0订阅

Spark 之解决数据倾斜（一）

介绍 Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题，是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。例如，reduce点一共要处理100万条数据

摸鱼专家
4年前
7.2k
135
评论

Spark SQL参数调优汇总|提速100%的秘籍

背景基于TPCDS的100G，500G数据进行了99SQL综合调优测试测试机为物理机5台，1台为管理节点，4台为计算节点可用内存约1T，核心数（vCore）200大概重要参数执行器个数 --

1024点线面
6年前
3.5k
6
评论

Spark 之 Shuffle调优

Shuffle调优一：调节map端缓冲区大小在Spark任务运行过程中，如果shuffle的map端处理的数据量比较大，但是map端缓冲的大小是固定的，可能会出现map端缓冲数据频繁spill溢

摸鱼专家
4年前
6.3k
144
2

Spark 之 Shuffle调优

Spark 三大数据结构之 RDD的行动算子

这是我参与更文挑战的第4天，活动详情查看：更文挑战介绍 RDD算子从对数据操作来讲大致分为两类: 转换(transformations)和行动(action) 转换算子: 将一个RDD转换为另一个R

摸鱼专家
5年前
6.6k
129
评论

Spark 三大数据结构之 RDD的行动算子

Spark 常规性能调优之 RDD优化、调节本地化等待时长

宝我今天跟文了，跟的想你的文，常规性能调优二：RDD优化 RDD复用在对RDD进行算子时，要避免相同的算子和计算逻辑之下对RDD进行重复的计算对上图中的RDD计算架构进

摸鱼专家
4年前
7.0k
129
3

Spark 常规性能调优之 RDD优化、调节本地化等待时长

Spark 常规性能调优之最优资源配置

常规性能调优一：最优资源配置 Spark性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策

摸鱼专家
4年前
7.4k
116
2

Spark 常规性能调优之并行度调节、广播大变量、Kryo序列化

常规性能调优四：并行度调节 Spark作业中的并行度指各个stage的task的数量。如果并行度设置不合理而导致并行度过低，会导致资源的极大浪费

摸鱼专家
4年前
6.9k
131
评论

Spark 常规性能调优之并行度调节、广播大变量、Kryo序列化