首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
spark
订阅
Fizz本尊
更多收藏集
微信扫码分享
微信
新浪微博
QQ
4篇文章 · 0订阅
Spark 之 解决数据倾斜(二)
数据倾斜解决方案三:过滤导致倾斜的key 如果在Spark作业中允许丢弃某些数据,那么可以考虑将可能导致数据倾斜的key进行过滤,滤除可能导致数据倾斜的key对应的数据,这样,在Spark作业中就不会
一文带你理清Spark Core调优的方方面面
图非常的重要,是文章中最有价值的部分。如果不是很重要的图一般不会亲手画 此文会很大程度上借鉴美团的文章分享内容和Spark官方资料去进行说明,也会结合笔者自身的理解。 这里会直接一笔带过,不作详细的展开了,大家可以通过搜索引擎能找到它们的详细说明。我们用最直接的话来阐述 就如字…
Spark 存储模块源码学习
能力有限,目前还是个学习者的姿态,所以只是记录一下spark存储模块源码的学习过程。在学习的过程中发现上面几个是不错的学习资料,推荐给大家,带*号表示值得优先查看学习的资料。 因为每个资料都各有侧重点,所以可能在看的时候对一些没有细讲的类和架构不了解。下面我对上面的资料进行了总…
一文带你过完Spark RDD的基础概念
上一篇权当吹水了,从这篇开始进入正题。 RDD(Resilient Distributed Dataset)叫做 弹性分布式数据集 ,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合. 一个分区(Partition)列表,组成了该RDD的数据…