spark - 明月一轮的收藏集 - 掘金

spark

更多收藏集

12篇文章 · 0订阅

LAS Spark 在 TPC-DS 的优化揭秘

文章主要介绍了火山引擎湖仓一体分析服务 LAS Spark（下文以 LAS Spark 指代）在 TPC-DS 上的性能突破与优化策略。TPC-DS 是一个模拟复杂数据仓库环境的测试基准，LAS Sp

字节跳动数据平台
2年前
1.2k
点赞
评论

LAS Spark 在 TPC-DS 的优化揭秘

Spark如何对源端数据做切分？

简介：典型的Spark作业读取位于OSS的Parquet外表时，源端的并发度（task/partition）如何确定？特别是在做TPCH测试时有一些疑问，如源端扫描文件的并发度是如何确定的？是否一个

阿里云云栖号
3年前
2.0k
2
评论

Spark切分stage

Spark里有很多RDD，且RDD之间有依赖关系。就像是一个单链表。 DAGScheduler这个类的源码注释非常值得一看。我理解的计算分为不相关计算(filter,map,flatmap...)和相关计算(combineByKey,reduceByKey,groupByKe…

霍云
6年前
988
点赞
评论

如何在Hive/SparkSQL处理引擎下使用BloomFilter

前言 BloomFilter，布隆过滤器，作为一个成熟的算法、数据结构和优化手段，已经在多个MPP数据库下有实现，可以直接被调用，比如在Doris可以作为指标列类型的一种——bitmap, 支持将多行

Ros1n
4年前
3.2k
7
2

Spark SQL 查询引擎–AQE (Part 1)

Cost-based optimisation (CBO) is not a new thing. It has been widely used in the RDBMS world for man

林木88
3年前
344
点赞
评论

spark3的AQE到底有哪些提升，是否值得一用？

本文已参与「新人创作礼」活动，一起开启掘金创作之路。前言 spark 3.X发布到现在已经有1年多了，很多小伙伴已经尝过鲜了，很多小伙伴准备去尝鲜，最近看了下spark 3.X相关的新特性，发现了3

克己l守心
3年前
1.5k
1
评论

spark3的AQE到底有哪些提升，是否值得一用？

阿里云RemoteShuffleService 新功能：AQE 和流控

简介：阿里云EMR 自2020年推出 Remote Shuffle Service(RSS)以来，帮助了诸多客户解决 Spark 作业的性能、稳定性问题，并使得存算分离架构得以实施。为了更方便大家使

阿里云云栖号
3年前
1.1k
1
评论

阿里云RemoteShuffleService 新功能：AQE 和流控

浅析 Spark Shuffle 内存使用

在使用 Spark 进行计算时，我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况，而且很大一部分情况是发生在 Shuffle 阶段。那么在 Spark Shuffle 中具体是哪些地方会使用比较多的内存而有可能导致 OOM 呢？为此，本文将围绕以上…

有赞技术
6年前
2.9k
6
2

彻底搞懂spark的shuffle过程（shuffle writer 的 UnsafeShuffleWriter）

首发个人公众号 spark技术分享, 同步个人网站 coolplayer.net，未经本人同意，禁止一切转载很久之前的这篇文章里面就应该写上了，但是觉得这部分实在太有趣，就单开一篇。因为Unsaf

sunbiaobiao
8年前
2.5k
2
评论

Spark Shuffle的基本原理分析

Certain operations within Spark trigger an event known as the shuffle. The shuffle is Spark’s mechanism for re-distributing data so that it…

Michaelhbjian
6年前
2.6k
2
评论