首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
Spark面试题
订阅
小刘新鲜事儿
更多收藏集
微信扫码分享
微信
新浪微博
QQ
14篇文章 · 0订阅
Spark 之 算子调优(二)
算子调优四:filter与coalesce的配合使用 在Spark任务中我们经常会使用filter算子完成RDD中数据的过滤,在任务初始阶段,
Spark 之 算子调优(一)
、算子调优一:mapPartitions 普通的map算子对RDD中的每一个元素进行操作,而mapPartitions算子对RDD中每一个分区进行操作。如果是普通的map算子,假设一个partit
Spark 之 JVM调优
对于JVM调优,首先应该明确,full gc/minor gc,都会导致JVM的工作线程停止工作,即stop the world。 JVM调优一:降低cache操作的内存占比 1. 静态内存管理机
Spark 之 Shuffle调优
Shuffle调优一:调节map端缓冲区大小 在Spark任务运行过程中,如果shuffle的map端处理的数据量比较大,但是map端缓冲的大小是固定的,可能会出现map端缓冲数据频繁spill溢
Spark 之 解决数据倾斜(三)
数据倾斜解决方案六:使用随机key实现双重聚合 当使用了类似于groupByKey、reduceByKey这样的算子时,可以考虑使用随机key实现双重聚合首先,通过map算子给每个数据的key添加随机
Spark 之 解决数据倾斜(二)
数据倾斜解决方案三:过滤导致倾斜的key 如果在Spark作业中允许丢弃某些数据,那么可以考虑将可能导致数据倾斜的key进行过滤,滤除可能导致数据倾斜的key对应的数据,这样,在Spark作业中就不会
Spark 之 解决数据倾斜(一)
介绍 Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。例如,reduce点一共要处理100万条数据
Spark 之 故障排除(二)
这是我参与更文挑战的第12天,活动详情查看:更文挑战 5 故障排除四:解决算子函数返回NULL导致的问题 在一些算子函数里,需要我们有一个返回值,但是在一些情况下我们不希望有返回值,此时我们如果直接返
Spark 常规性能调优 之 并行度调节、广播大变量、Kryo序列化
常规性能调优四:并行度调节 Spark作业中的并行度指各个stage的task的数量。 如果并行度设置不合理而导致并行度过低,会导致资源的极大浪费
Spark 之 故障排除(一)
故障排除一:控制reduce端缓冲大小以避免OOM 在Shuffle过程,reduce端task并不是等到map端task将其数据全部写入磁盘后再去拉取,而是map端写一点数据,reduce端task