spark - fageiguanbing的收藏集 - 掘金

spark

fageiguanbing 创作等级LV.3

更多收藏集

4篇文章 · 0订阅

一文带你过完Spark RDD的基础概念

上一篇权当吹水了，从这篇开始进入正题。 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合. 一个分区（Partition）列表，组成了该RDD的数据…

说出你的愿望吧
6年前
5.1k
63
10

Hello Spark! | Spark，从入门到精通

Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架，是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级的大数据处理统一平台。当我们在谈 Spark 的时候可能是指一个 Spark 应用程序，替代 Ma…

美图数据技术团队
7年前
12k
157
5

Hello Spark! | Spark，从入门到精通

关于Spark基础的一些小问题补充

DAGScheduler拿到DAG有向无环图之后，按照宽依赖进行stage的划分。每一个stage内部有很多可以并行运行的task，最后封装在一个一个的taskSet集合中，然后把taskSet发送给TaskScheduler TaskScheduler得到taskSet集合之…

说出你的愿望吧
6年前
2.5k
29
1

从零开始认识 Spark

Spark的知识点很多，决定分多P来慢慢讲🤣，比较关键的RDD算子其实已经写了大半，奈何内容还是太多了就不和这篇扯皮的放一起了。 spark是在Hadoop基础上的改进，是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用的并行计算…

说出你的愿望吧
6年前
4.9k
64
13