首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
Spark
订阅
想做个好程序员
更多收藏集
微信扫码分享
微信
新浪微博
QQ
8篇文章 · 0订阅
Spark Streaming 大厂面试题
Spark Streaming第一次运行不丢失数据 kafka参数 auto.offset.reset 参数设置成earliest 从最初始偏移量开始消费数据
Spark Streaming 的容错机制
此时我们启动一个Application任务,根据我们启动的模式和运行集群的类型,会根据一定的策略选择一台服务器当做Driver服务器,在其初始化完成之后,就会顺带把这些Executor给初始化完成。 之后Driver就会发送Receiver到某一个Executor上面,Rece…
spark任务stage的分解
首先按照rdd之间的依赖方式形成DAG,然后提交给DAGScheduler,DAGScheduler根据rdd之间的依赖关系(遇到宽依赖)将任务划分成多个stage。 map-reduce 则是采用计算完成落盘,然后再计算再落到磁盘或者内存,最后输出到计算节点上,按照reduc…
图解大数据 | Spark Dataframe/SQL大数据处理分析
DataFrame是一个以命名列方式组织的分布式数据集。本文详细讲解 Spark Dataframe的创建方式,Agg、Collect、Groupby等核心操作,以及Spark SQL操作核心要点。
Spark资源调度和任务调度过程介绍
Spark的资源调度是个很重要的模块,只要搞懂原理,才能具体明白Spark是怎么执行的,所以尤其重要。 自愿申请的话,本文分粗粒度和细粒度模式分别介绍。 1、启动集群后,Worker节点会向Master节点汇报资源情况,Master掌握了集群资源情况。 2、当Spark提交一个…
Spark入门(四)--Spark的map、flatMap、mapToPair
在上一节Spark经典的单词统计中,了解了几个RDD操作,包括flatMap,map,reduceByKey,以及后面简化的方案,countByValue。那么这一节将介绍更多常用的RDD操作,并且为每一种RDD我们分解来看其运作的情况。 flatMap,有着一对多的表现,输入…
java大数据学习笔记(目录)
目前想要跳槽去大厂,所以决定从java基础和底层源码一点一点复习,这个系列将会主要写一些java大数据的基础和源码学习。等学完了再尝试是否继续写提高篇之类的。
上万字详解Spark Core(建议收藏)
Spark 产生之前,已经有MapReduce这类非常成熟的计算系统存在了,并提供了高层次的API(map/reduce),把计算运行在集群中并提供容错能力,从而实现分布式计算。 虽然MapReduce提供了对数据访问和计算的抽象,但是对于数据的复用就是简单的将中间数据写到一个…