首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
spark
订阅
乌云盖雪烘
更多收藏集
微信扫码分享
微信
新浪微博
QQ
6篇文章 · 0订阅
上万字详解Spark Core(建议收藏)
Spark 产生之前,已经有MapReduce这类非常成熟的计算系统存在了,并提供了高层次的API(map/reduce),把计算运行在集群中并提供容错能力,从而实现分布式计算。 虽然MapReduce提供了对数据访问和计算的抽象,但是对于数据的复用就是简单的将中间数据写到一个…
Spark 系列(六)—— 累加器与广播变量
广播变量:主要用于在节点间高效分发大对象。 counter 最后的结果是 0,导致这个问题的主要原因是闭包。 1. Scala 中闭包的概念 more : 是一个自由变量 (free variable),因为函数字面量本生并没有给 more 赋予任何含义。 按照定义:在创建函数…
Spark 系列(五)—— Spark 运行模式与作业提交
需要注意的是:在集群环境下,application-jar 必须能被集群中所有节点都能访问,可以是 HDFS 上的路径;也可以是本地文件系统路径,如果是本地文件系统路径,则要求集群中每一个机器节点上的相同路径都存在该 Jar 包。 deploy-mode 有 cluster 和…
Spark 系列(二)—— Spark开发环境搭建
Local 模式是最简单的一种运行方式,它采用单节点多线程方式运行,不用部署,开箱即用,适合日常测试开发。 local[*]:启动跟 cpu 数目相同的工作线程数。 安装完成后可以先做一个简单的词频统计例子,感受 spark 的魅力。准备一个词频统计的文件样本 wc.txt,内…
Spark 系列(四)—— RDD常用算子详解
flatMap(func) 与 map 类似,但每一个输入的 item 会被映射成 0 个或多个输出的 items( func 返回类型需要为 Seq)。 与 map 类似,但函数单独在 RDD 的每个分区上运行, func函数的类型为 Iterator<T> => Itera…
Spark 系列(三)—— 弹性式数据集RDDs
一个 RDD 由一个或者多个分区(Partitions)组成。对于 RDD 来说,每个分区会被一个计算任务所处理,用户可以在创建 RDD 时指定其分区个数,如果没有指定,则默认采用程序所分配到的 CPU 的核心数; RDD 会保存彼此间的依赖关系,RDD 的每次转换都会生成一个…