首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
spark
程sq
创建于2022-06-06
订阅专栏
spark
暂无订阅
共12篇文章
创建于2022-06-06
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
MR和spark 基于YARN的作业提交流程
MR的提交流程 (1)作业提交 1.Client调用job.waitForCompletion方法,向整个集群提交 MapReduce 作业。 2.Client 向 RM 申请一个作业 id。 3.R
谈谈hive on Spark和Spark with hive
Spark SQL 其中一类非常典型的场景是与 Hive 做集成、构建分布式数据仓库。数据仓库指的是一类带有主题、聚合层次较高的数据集合,它的承载形式,往往是一系列 Schema 经过精心设计的数据表
谈谈Spark Sql中的join
spark中的join 关联形式 按照关联形式划分,数据关联分为 内关联、外关联、左关联、右关联等等。对于参与的关联表来说,其关联形式决定的了数据的存在结果,所以选择关联形式,是由业务逻辑决定的。 实
Spark 的 dataframe 和 sql
RDD和DataFrame SparkContext 通过 textFile API 把源数据转换为 RDD SparkSession,你可以把它理解为是 SparkContext 的进阶版,是 Sp
spark的宽窄依赖
RDD的依赖关系 在Spark中,RDD分区的数据不支持修改,是只读的。如果想要更新RDD分区中数据,那么只能对原有RDD进行转化操作,也就是在原有RDD基础上创建一个新的RDD。 那么,在整个任务的
MapReduce的shuffle和Spark的shuffle的之间的关系
通过前面对两种shuffle的理解,我们总结如下: 从shuffle的原理来看,两者其实差别不大。都是将Mapper(spark里是shuffleMapTask)的输出按照reduce端的并行度进行分
MapReduce的shuffle
一、MapReduce计算模型 maprecude主要三个阶段组成:Map,shuffle,Reduce. 如图所示: Map是映射,负责数据的过滤分法,将原始数据转为键值对;redcue是合并,将具
细解spark的shuffle
DAGScheduler 以 Shuffle 为边界,将计算图DAG切分为多个Stages.显然shuffle起着关键的作用。 什么是shuffle Shuffle 的本意是扑克的“洗牌”,在分布式计
通俗易懂的理解Driver和Executor中相关类。
分布式计算的精髓,在于如何把抽象的计算图,转化为实实在在的分布式计算任务,然后以并行计算的方式交付执行。 那么“对于给定的用户代码和相应的计算流图,Driver 是怎么把计算图拆解为分布式任务,又是按
spark的内存和OOM问题。
在理解OOM问题得先理解spark 的内存。 Spark 内存区域划分 spark的Executor的Container内存有两大部分组成:堆外内存和Executor内存。 堆外内存 spark.ex
通俗易懂的理解spark的分布式计算
在什么是RDD中,通过将土豆的加工流程和wordcount进行了类比,如图所示: 我们来说一下二者的区别: 首先,Word Count 计算流图是一种抽象的流程图,而土豆工坊的流水线是可操作、可运行而
spark之什么是RDD,编程模型和延迟计算
什么是RDD RDD:弹性分布式数据集 (Resilient Distributed DataSet),Spark 中最基本的数据抽象。 简单来说RDD 是一种抽象,是 Spark 对于分布式数据集的