spark - vionysos的收藏集 - 掘金

spark

更多收藏集

3篇文章 · 0订阅

Spark的两种核心Shuffle详解（建议收藏）

在 MapReduce 框架中， Shuffle 阶段是连接 Map 与 Reduce 之间的桥梁， Map 阶段通过 Shuffle 过程将数据输出到 Reduce 阶段中。由于 Shuffle 涉

五分钟学大数据
4年前
2.5k
7
评论

上万字详解Spark Core（建议收藏）

Spark 产生之前，已经有MapReduce这类非常成熟的计算系统存在了，并提供了高层次的API(map/reduce)，把计算运行在集群中并提供容错能力，从而实现分布式计算。虽然MapReduce提供了对数据访问和计算的抽象，但是对于数据的复用就是简单的将中间数据写到一个…

五分钟学大数据
5年前
507
2
评论

一文带你过完Spark RDD的基础概念

上一篇权当吹水了，从这篇开始进入正题。 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合. 一个分区（Partition）列表，组成了该RDD的数据…

说出你的愿望吧
6年前
5.2k
63
10