首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
spark
订阅
明月一轮
更多收藏集
微信扫码分享
微信
新浪微博
QQ
12篇文章 · 0订阅
LAS Spark 在 TPC-DS 的优化揭秘
文章主要介绍了火山引擎湖仓一体分析服务 LAS Spark(下文以 LAS Spark 指代)在 TPC-DS 上的性能突破与优化策略。TPC-DS 是一个模拟复杂数据仓库环境的测试基准,LAS Sp
Spark如何对源端数据做切分?
简介: 典型的Spark作业读取位于OSS的Parquet外表时,源端的并发度(task/partition)如何确定?特别是在做TPCH测试时有一些疑问,如源端扫描文件的并发度是如何确定的?是否一个
Spark切分stage
Spark里有很多RDD,且RDD之间有依赖关系。就像是一个单链表。 DAGScheduler这个类的源码注释非常值得一看。 我理解的计算分为不相关计算(filter,map,flatmap...)和相关计算(combineByKey,reduceByKey,groupByKe…
如何在Hive/SparkSQL处理引擎下使用BloomFilter
前言 BloomFilter,布隆过滤器,作为一个成熟的算法、数据结构和优化手段,已经在多个MPP数据库下有实现,可以直接被调用,比如在Doris可以作为指标列类型的一种——bitmap, 支持将多行
Spark SQL 查询引擎–AQE (Part 1)
Cost-based optimisation (CBO) is not a new thing. It has been widely used in the RDBMS world for man
spark3的AQE到底有哪些提升,是否值得一用?
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 前言 spark 3.X发布到现在已经有1年多了,很多小伙伴已经尝过鲜了,很多小伙伴准备去尝鲜,最近看了下spark 3.X相关的新特性,发现了3
阿里云RemoteShuffleService 新功能:AQE 和流控
简介:阿里云EMR 自2020年推出 Remote Shuffle Service(RSS)以来,帮助了诸多客户解决 Spark 作业的性能、稳定性问题,并使得存算分离架构得以实施。为了更方便大家使
浅析 Spark Shuffle 内存使用
在使用 Spark 进行计算时,我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况,而且很大一部分情况是发生在 Shuffle 阶段。那么在 Spark Shuffle 中具体是哪些地方会使用比较多的内存而有可能导致 OOM 呢? 为此,本文将围绕以上…
彻底搞懂spark的shuffle过程(shuffle writer 的 UnsafeShuffleWriter)
首发个人公众号 spark技术分享, 同步个人网站 coolplayer.net,未经本人同意,禁止一切转载很久之前的 这篇文章 里面就应该写上了,但是觉得这部分实在太有趣,就单开一篇。因为Unsaf
Spark Shuffle的基本原理分析
Certain operations within Spark trigger an event known as the shuffle. The shuffle is Spark’s mechanism for re-distributing data so that it…