首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
spark
不想说话
创建于2023-01-07
订阅专栏
spark在学习和工作中遇到的问题
暂无订阅
共5篇文章
创建于2023-01-07
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
任务失败和重试逻辑
线上问题 由于线上Spark集群均为过保机器,经常会出现某台机器出故障的情况,导致任务经常会进行失败重试,下面从源码角度解析失败重试的流程和重试逻辑。 流程 参考 https://juejin.cn/
Spark计算引擎源码分析-前置知识
从DAG图介绍spark shuffle的入口,介绍了shuffle的类型在什么情况下使用哪种类型的shuffle,在shuffle write的过程中如果进行迭代计算,怎么触发shuffleread
Spark计算引擎源码分析-Shuffle Write
SortShuffleWriter shuffle write流程: 创建ExternalSorter,如果不需要mapSideCombine,把聚合函数和ordering设置为none Extern
Spark计算引擎源码分析-Shuffle Read
SortShuffleManager.getReader() 获取map任务状态 MapOutputTrackerWorker.getMapSizesByExecutorId() getStatus
spark宽窄依赖
spark根据宽窄依赖划分stage,那么如何区分宽窄依赖呢? 概念 很多资料上讲宽窄依赖:窄依赖指父RDD的每个分区只被子RDD的一个分区所使用,宽依赖指父RDD的每个分区都可能被子RDD的多个分区