首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Spark
墨尘r
创建于2023-07-19
订阅专栏
记录个人学习Spark的点点滴滴
暂无订阅
共22篇文章
创建于2023-07-19
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Spark源码阅读篇-rpc通信-CoarseGrainedSchedulerBackend创建过程
上一节我们介绍了fetchAndRunExecutor方法中执行命令启动CoarseGrainedSchedulerBackend,这一节就从前往后梳理一遍其是怎么创建的全过程。
Spark源码阅读篇-rpc通信-ExecutorRunner
上一节我们介绍到worker在启动executor的时候创建了ExecutorRunner,接下来我们来看一下ExecutorRunner是怎么启动进程执行具体的任务的。
Spark源码阅读篇-Rpc通信-Worker
上一节介绍了master如何处理driver提交的应用程序,找到满足条件的worker之后给worker发消息,进而启动executor,这一节我们来继续看一下worker怎么处理。
Spark源码阅读篇-Rpc通信-Master
上一节介绍了单例模式下driver提交应用的过程,这一节我们来具体看一下master怎么后续进行资源调度和启动executor来执行任务。
Spark源码阅读篇-Rpc通信-StandaloneAppClient应用提交
了解完Spark中基本的通信原理之后,接下来我们来一起通过应用提交处理流程来一起看一下端点之间是怎么通信的,看一下应用是怎么提交的。
Spark源码阅读篇-Rpc通信-NettyRpcEnv
上一节介绍了消息发件箱Outbox,这一节介绍NettyRpcEnv,NettyRpcEnv囊括了之前介绍的所有,是RpcEnv的netty实现。
Spark源码阅读篇-Rpc通信-Outbox发件箱
上一节介绍了Inbox收件箱,这一节来进一步阅读Outbox发件箱的源码,先定义不同类型的消息,包括单向消息和需要回复的rpc消息,最后介绍Outbox如何管理需要发送的消息以及具体发送。
Spark源码阅读篇-Rpc通信-Inbox收件箱
这一节介绍消息循环中每个节点Inbox收件箱,每个Inbox对应一个RpcEndpoint,Inbox如何将消息传递给RpcEndpoint呢?我们一起从源码中寻找答案。
Spark源码阅读篇-Rpc通信-MessageLoop消息循环
上一节介绍了Dispatcher消息分发器的源码,里面有一个sharedLoop是共享消息循环,主要是负责保存多个RpcEndpoint端点的消息,这一节就来结合源码看一下消息循环是怎么保存消息并处理
Spark源码阅读篇-Rpc通信-Dispatcher消息分发器
这一节主要是介绍Dispatcher消息分发器,当RpcEnv不管是收到外部的消息分发还是内部RpcEndpoint之间消息发送都需要经由Dispatcher处理。
Spark源码阅读篇-Rpc通信-RpcEndpoint、RpcEndpointRef和RpcEnv
本节主要是看RpcEnv、RpcEndpoint和RpcEndpointRef,其中RpcEnv和RpcEndpointRef的源码。
Spark源码阅读篇-Rpc通信-概述
最近在阅读《图解Spark核心技术与案例实战》第4章Spark核心原理,4.1消息通信原理,梳理一下架构原理及其实现方式。
Spark 请求海外Akamai接口
最近做的一个项目涉及到从Akamai海外接口获取数据并进行解析,这里记录一下请求的两种方式,根据不同情况使用不同的方式。
Spark SQL sum(case when ...)统计占比
偶然了解到sum和case when 组合起来可以统计做一些占比查询,记录一下。每天积累一些SQL小技巧。
Spark SQL 特殊字符切割
工作中经常遇到需要对某个字符串进行切割提取出需要的部分,在Hive中能达到效果,但是在Spark SQL中却不行,尤其是针对转义字符。通常需要加反义字符才能解决。
Spark 数据写入S3
最近在做的项目涉及到需要把hive表里面大批量的数据写入到S3,这里初步写了一个demo,记录一下过程。
Spark调优篇-AQE自动分区合并特性实践
最近在做一些Spark SQL任务优化的工作,学习了极客时间吴磊老师的课程之后,针对AQE的特性做了一些调研实践,本文介绍一下应用自动分区合并特性优化任务的过程。
Spark Shuffle原理过程实例详解
最近在极客时间学习了吴磊老师的Spark课程,结合网上博客提到的原理过程,这里做一个梳理记录,方便以后翻看。
Spark SQL调优篇-driver-memory
最近其他部门需要做调度优化,需要我这边出一份调度数据做分析使用,数据量比较大,记录一下该过程遇到的问题以及解决方案。
Spark SQL调优篇-MAPJOIN实践
最近在进行SQL优化工作,网上看了很多博客了解到MAPJOIN这一工具,本文主要是进行调研实践,原理过程复制大佬文章内容并进行了整理,注明了出处。
下一页