首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
Spark
订阅
火星上的仙人掌
更多收藏集
微信扫码分享
微信
新浪微博
QQ
4篇文章 · 0订阅
5小时推开Spark的大门——05.RDD
大家好,我是一条~ 5小时推开Spark的大门,最后一小时,聊聊提了这么久的RDD。 话不多说,开干! 什么是RDD Spark为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的
Spark系列:RDD的分区和Shuffle使用介绍
1.1.1. scala> sc.parallelize(1 to 100).之所以会有 8 个 Tasks, 是因为在启动的时候指定的命令是 spark-shell --master local[8], 这样会生成 1 个 Executors, 这个 Executors 有 8...
一文带你过完Spark RDD的基础概念
上一篇权当吹水了,从这篇开始进入正题。 RDD(Resilient Distributed Dataset)叫做 弹性分布式数据集 ,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合. 一个分区(Partition)列表,组成了该RDD的数据…
Spark 常规性能调优 之 RDD优化、调节本地化等待时长
宝我今天跟文了,跟的想你的文,常规性能调优二:RDD优化 RDD复用 在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算 对上图中的RDD计算架构进