spark - 哇咔咔xs的收藏集 - 掘金

spark

更多收藏集

3篇文章 · 0订阅

Spark的Shuffle总结分析

Shuffle就是对数据进行重组，由于分布式计算的特性和要求，在实现细节上更加繁琐和复杂。在MapReduce框架，Shuffle是连接Map和Reduce之间的桥梁，Map阶段通过shuffle读取数据并输出到对应的Reduce，而Reduce阶段负责从Map端拉取数据并进…

说出你的愿望吧
6年前
4.5k
51
20

Spark核心编程的三大数据结构之 RDD基础编程 (一)

在Spark中创建RDD的创建方式可以分为四种：从集合（内存）中创建RDD 从集合中创建RDD，Spark主要提供了两个方法：parallelize和makeRDD

摸鱼专家
4年前
7.1k
137
评论

Spark核心编程的三大数据结构之 RDD基础编程 (一)

Hello Spark! | Spark，从入门到精通

Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架，是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级的大数据处理统一平台。当我们在谈 Spark 的时候可能是指一个 Spark 应用程序，替代 Ma…

美图数据技术团队
7年前
12k
157
5

Hello Spark! | Spark，从入门到精通