Spark - 火星上的仙人掌的收藏集 - 掘金

Spark

火星上的仙人掌

更多收藏集

4篇文章 · 0订阅

5小时推开Spark的大门——05.RDD

大家好，我是一条~ 5小时推开Spark的大门，最后一小时，聊聊提了这么久的RDD。话不多说，开干！什么是RDD Spark为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的

一条coding
4年前
4.5k
22
评论

Spark系列：RDD的分区和Shuffle使用介绍

1.1.1. scala> sc.parallelize(1 to 100).之所以会有 8 个 Tasks, 是因为在启动的时候指定的命令是 spark-shell --master local[8], 这样会生成 1 个 Executors, 这个 Executors 有 8...

涤生大数据
4年前
1.4k
5
评论

一文带你过完Spark RDD的基础概念

上一篇权当吹水了，从这篇开始进入正题。 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合. 一个分区（Partition）列表，组成了该RDD的数据…

说出你的愿望吧
6年前
5.2k
63
10

Spark 常规性能调优之 RDD优化、调节本地化等待时长

宝我今天跟文了，跟的想你的文，常规性能调优二：RDD优化 RDD复用在对RDD进行算子时，要避免相同的算子和计算逻辑之下对RDD进行重复的计算对上图中的RDD计算架构进

摸鱼专家
4年前
7.0k
129
3

Spark 常规性能调优之 RDD优化、调节本地化等待时长