Spark - 想做个好程序员的收藏集 - 掘金

Spark

想做个好程序员

更多收藏集

8篇文章 · 0订阅

Spark Streaming 大厂面试题

Spark Streaming第一次运行不丢失数据 kafka参数 auto.offset.reset 参数设置成earliest 从最初始偏移量开始消费数据

摸鱼专家
4年前
7.1k
123
1

Spark Streaming 的容错机制

此时我们启动一个Application任务，根据我们启动的模式和运行集群的类型，会根据一定的策略选择一台服务器当做Driver服务器，在其初始化完成之后，就会顺带把这些Executor给初始化完成。之后Driver就会发送Receiver到某一个Executor上面，Rece…

说出你的愿望吧
6年前
3.2k
32
2

spark任务stage的分解

首先按照rdd之间的依赖方式形成DAG,然后提交给DAGScheduler，DAGScheduler根据rdd之间的依赖关系(遇到宽依赖)将任务划分成多个stage。 map-reduce 则是采用计算完成落盘，然后再计算再落到磁盘或者内存，最后输出到计算节点上，按照reduc…

SearchTree
6年前
973
点赞
评论

图解大数据 | Spark Dataframe/SQL大数据处理分析

DataFrame是一个以命名列方式组织的分布式数据集。本文详细讲解 Spark Dataframe的创建方式，Agg、Collect、Groupby等核心操作，以及Spark SQL操作核心要点。

ShowMeAI
4年前
9.0k
3
1

图解大数据 | Spark Dataframe/SQL大数据处理分析

Spark资源调度和任务调度过程介绍

Spark的资源调度是个很重要的模块，只要搞懂原理，才能具体明白Spark是怎么执行的，所以尤其重要。自愿申请的话，本文分粗粒度和细粒度模式分别介绍。 1、启动集群后，Worker节点会向Master节点汇报资源情况，Master掌握了集群资源情况。 2、当Spark提交一个…

微笑向暖wx
7年前
213
点赞
评论

Spark入门（四）--Spark的map、flatMap、mapToPair

在上一节Spark经典的单词统计中，了解了几个RDD操作，包括flatMap，map，reduceByKey，以及后面简化的方案，countByValue。那么这一节将介绍更多常用的RDD操作，并且为每一种RDD我们分解来看其运作的情况。 flatMap，有着一对多的表现，输入…

诗昭
7年前
7.9k
14
评论

java大数据学习笔记（目录）

目前想要跳槽去大厂，所以决定从java基础和底层源码一点一点复习，这个系列将会主要写一些java大数据的基础和源码学习。等学完了再尝试是否继续写提高篇之类的。

Hiway
7年前
8.9k
67
4

上万字详解Spark Core（建议收藏）

Spark 产生之前，已经有MapReduce这类非常成熟的计算系统存在了，并提供了高层次的API(map/reduce)，把计算运行在集群中并提供容错能力，从而实现分布式计算。虽然MapReduce提供了对数据访问和计算的抽象，但是对于数据的复用就是简单的将中间数据写到一个…

五分钟学大数据
5年前
468
2
评论