spark面试 - sunlovefly的收藏集 - 掘金

spark面试

sunlovefly 创作等级LV.2

更多收藏集

23篇文章 · 0订阅

面试|spark模块 - spark的工作流程？

所有spark程序都离不开程序初始化和执行任务这两部分，所以该问题可以从这两部分开始回答。用户通过sparksubmit提交程序以后，driver程序开始运行(driver程序就是运行起来的提交的程序,可以理解为spark的main程序)。 driver程序运行起来会首先初始…

zhouguowei
6年前
910
1
2

重学Spark之RDD

什么是RDD？RDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。Spark的惰

Biu_
5年前
1.0k
2
评论

一文带你过完Spark RDD的基础概念

上一篇权当吹水了，从这篇开始进入正题。 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合. 一个分区（Partition）列表，组成了该RDD的数据…

说出你的愿望吧
6年前
5.1k
63
10

Spark调优总结

数据倾斜（shuffle优化）小文件合并其他效率问题参数调优SparkContext初始化动态申请资源Spark性能优化指南——基础篇Spark性能优化指南——高级篇AdaptiveExecution

Meet相识
6年前
3.1k
点赞
评论

Spark 源码系列（五）分布式缓存

这一章想讲一下 Spark 的缓存是如何实现的。这个 persist 方法是在 RDD 里面的，所以我们直接打开 RDD 这个类。它调用 SparkContext 去缓存这个 RDD，追杀下去。它居然是用一个 HashMap 来存的，具体看这个 map 的类型是 TimeS…

EddieJ
6年前
999
2
评论

Sprk submit 过程

折腾了很久，终于开始学习 Spark 的源码了，第一篇我打算讲一下 Spark 作业的提交过程。这个是 Spark 的 App 运行图，它通过一个 Driver 来和集群通信，集群负责作业的分配。今天我要讲的是如何创建这个 Driver Program 的过程。我们先看一下…

EddieJ
6年前
461
点赞
评论

Spark 提交任务源码解析 (一)

最令人头秃的就是看源码环境本次使用的spark版本是 3.0.0 1.这是我们提交任务的脚本 2.咱们看下 spark-submit 脚本代码

摸鱼专家
4年前
7.1k
112
1

Spark 提交任务源码解析 (一)

Spark的两种核心Shuffle详解（建议收藏）

在 MapReduce 框架中， Shuffle 阶段是连接 Map 与 Reduce 之间的桥梁， Map 阶段通过 Shuffle 过程将数据输出到 Reduce 阶段中。由于 Shuffle 涉

五分钟学大数据
4年前
2.5k
7
评论

【大数据学习日记】Spark之shuffle调优

答案：每个Spark作业启动运行的时候，首先Driver进程会将我们编写的Spark作业代码分拆为多个stage，每个stage执行一部分代码片段，并为每个stage创建一批Task，然后将这些Task分配到各个Executor进程中执行。一个stage的所有Task都执行完毕…

大数据dairy
8年前
644
点赞
评论

Spark 大厂面试题

Spark解决什么问题二 Spark为什么会有自己的资源调度器三 Spark运行模式四 Spark常用端口号五 Spark提交作业参数六 Spark的transformation算子

摸鱼专家
4年前
11k
204
评论