首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
小刘新鲜事儿
掘友等级
学生
|
无
无
获得徽章 1
动态
文章
专栏
沸点
收藏集
关注
作品
赞
24
文章 24
沸点 0
赞
24
返回
|
搜索文章
赞
文章( 24 )
沸点( 0 )
Spark 之 算子调优(二)
算子调优四:filter与coalesce的配合使用 在Spark任务中我们经常会使用filter算子完成RDD中数据的过滤,在任务初始阶段,
Spark 之 算子调优(一)
、算子调优一:mapPartitions 普通的map算子对RDD中的每一个元素进行操作,而mapPartitions算子对RDD中每一个分区进行操作。如果是普通的map算子,假设一个partit
Spark 之 JVM调优
对于JVM调优,首先应该明确,full gc/minor gc,都会导致JVM的工作线程停止工作,即stop the world。 JVM调优一:降低cache操作的内存占比 1. 静态内存管理机
Spark 之 Shuffle调优
Shuffle调优一:调节map端缓冲区大小 在Spark任务运行过程中,如果shuffle的map端处理的数据量比较大,但是map端缓冲的大小是固定的,可能会出现map端缓冲数据频繁spill溢
Spark 之 解决数据倾斜(三)
数据倾斜解决方案六:使用随机key实现双重聚合 当使用了类似于groupByKey、reduceByKey这样的算子时,可以考虑使用随机key实现双重聚合首先,通过map算子给每个数据的key添加随机
Spark 之 解决数据倾斜(二)
数据倾斜解决方案三:过滤导致倾斜的key 如果在Spark作业中允许丢弃某些数据,那么可以考虑将可能导致数据倾斜的key进行过滤,滤除可能导致数据倾斜的key对应的数据,这样,在Spark作业中就不会
Spark 之 解决数据倾斜(一)
介绍 Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。例如,reduce点一共要处理100万条数据
Spark 之 故障排除(二)
这是我参与更文挑战的第12天,活动详情查看:更文挑战 5 故障排除四:解决算子函数返回NULL导致的问题 在一些算子函数里,需要我们有一个返回值,但是在一些情况下我们不希望有返回值,此时我们如果直接返
Spark 常规性能调优 之 并行度调节、广播大变量、Kryo序列化
常规性能调优四:并行度调节 Spark作业中的并行度指各个stage的task的数量。 如果并行度设置不合理而导致并行度过低,会导致资源的极大浪费
Spark 之 故障排除(一)
故障排除一:控制reduce端缓冲大小以避免OOM 在Shuffle过程,reduce端task并不是等到map端task将其数据全部写入磁盘后再去拉取,而是map端写一点数据,reduce端task
下一页
个人成就
文章被点赞
13
文章被阅读
3,196
掘力值
198
关注了
0
关注者
0
收藏集
4
关注标签
9
加入于
2022-07-01