首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Spark
Linzx的学习笔记
创建于2021-05-17
订阅专栏
专注于Spark基础及源码
等 4 人订阅
共13篇文章
创建于2021-05-17
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Linzx的学习笔记
1年前
Spark
Spark源码解析05-Submit提交流程及Master资源分配和Executor启动
1、前言 由前面的文章Spark源码解析04-Submit提交流程及SparkContext准备流程我们已经知道了SparkContext准备过程中会向Master发送RegisterApplicat
432
2
评论
Linzx的学习笔记
1年前
Spark
后端
Spark源码解析04-Submit提交流程及SparkContext准备流程
1、前言 由前面的文章Spark源码解析03-Submit提交流程及Driver启动流程我们已经知道了Spark的重要角色Driver的启动,既DriverWrapper 我们回过头看下cluster
454
点赞
评论
Linzx的学习笔记
1年前
Spark
后端
Spark术语01-application、job、Stage、task的区别
1、前言 本文使用spark源码版本为 2.3.4 2、SparkContext注释 我们来看一段Spark源码的注释,进入SparkContext,可以看到“Only one SparkContex
1164
1
评论
Linzx的学习笔记
2年前
Spark
后端
Spark源码解析03-Submit提交流程及Driver启动流程
1、前言 由前面的文章Spark基础06-Spark client和cluster提交流程我们已经知道了Spark client和cluster提交模式流程 启动Driver进程,并向集群管理器注册应
865
点赞
评论
Linzx的学习笔记
2年前
Spark
Spark知识学习目录
0、前言 该文章为Spark知识文章目录,便于查看,持续更新中。。。。。 1、Spark基础 Spark基础01-RDD和宽窄依赖 Spark基础02-RDD数据集操作 Spark基础03-关联外部数
335
点赞
评论
Linzx的学习笔记
2年前
Spark
Spark源码解析02-Worker启动流程以及与Master心跳通信
1、前言 上一章我们已经跟踪完了Master的启动过程以及相应的一些RpcEnv环境准备工作,我们知道Master是RpcEndpoint,其它角色想要跟Master进行通信,就必须有Master的引
310
点赞
评论
Linzx的学习笔记
2年前
Spark
Spark基础06-Spark client和cluster提交流程
0、前言 我们先来看一下,spark提交任务的脚本,这里的deploy-mode就是本篇文章的重点,表示着提交模式,分别只有client客户端模式和cluster集群模式 1、通用的提交流程 启动Dr
513
1
评论
Linzx的学习笔记
2年前
Spark
Spark基础05-map和mapValue
0、前言 真实面试题: 使用了reduceByKey()和groupByKey()等xxxByKey()算子一定会产生shuffle吗? Spark 如何优化或者减少shuffle? 1、map 1.
613
1
评论
Linzx的学习笔记
2年前
Spark
Spark基础04-RDD重分区操作repartition与coalesce
1、repartition 1.1、官方解释 返回一个新的RDD具有 (numPartitions) 指定的分区数,可以通过该方法进行RDD并行度(分区数)的修改 如果要减少RDD分区数的话,建议使用
698
点赞
评论
Linzx的学习笔记
2年前
Spark
Spark基础03-关联外部数据源操作
1、通过map关联外部数据源 问题:每一条数据都会对数据库建立连接,执行SQL语句,关闭连接。频繁的建立关闭连接会造成大量的资源消耗 2、通过mapPartitionsWithIndex和mapPar
173
点赞
评论
Linzx的学习笔记
2年前
Spark
Spark基础02-RDD数据集操作
0、拓展 spark数据移动的两种方式: IO移动:指数据不需要区分每一条数据归属于哪个分区,既不需要通过partitioner shuffle:指数据需要经过洗牌,计算其分区号,好确认数据区到哪个特
212
点赞
评论
Linzx的学习笔记
2年前
Spark
Spark基础01-RDD和宽窄依赖
1、RDD 官方解释是:A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an imm
730
点赞
评论
Linzx的学习笔记
2年前
Spark
Spark源码解析01-Master启动流程
1、前言 Master是spark中核心角色,涉及到集群通信以及资源调用申请,不仅要接收Driver,Worker的注册调用,还需要根据调度情况知道其他角色的状态,例如:Executor、Driver
437
点赞
评论