spark - 用户5870349545448的收藏集 - 掘金

spark

用户5870349545448

更多收藏集

5篇文章 · 0订阅

Spark AQE SkewedJoin 在字节跳动的实践和优化

本文首先介绍 Spark AQE SkewedJoin 的基本原理以及字节跳动在实践中遇到的问题；其次介绍针对遇到问题所做的相关优化和功能增强；此外，我们还将分享 SkewedJoin 的使用经验。

字节跳动技术团队
3年前
9.6k
9
评论

Spark AQE SkewedJoin 在字节跳动的实践和优化

Spark性能优化-------资源调优

为作业配置合适的资源，Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。使用spark-submit提交一个Spark作业后，这个作业就会启动一个对应的Driver进程，根据使用的部署模式（deploy-mode）不同，Driver进程可能在本地启动，...

图特摩斯科技
4年前
354
点赞
评论

SparkSQL 在企业级数仓建设的优势

Spark 引擎因为自身强大的生态和方便的编程接口被广泛应用在数据处理场景下，Spark 提供的 Spark SQL 模块更是为使用 Spark 支撑企业数据仓库提供了一个良好的基础设施。

字节跳动技术团队
3年前
19k
19
评论

Spark SQL底层执行流程详解

本文目录一、Apache Spark 二、Spark SQL发展历程三、Spark SQL底层执行原理四、Catalyst 的两大优化一、Apache Spark Apache Spark是用

五分钟学大数据
3年前
782
点赞
评论

大数据开发！Pandas转spark无痛指南！

Pandas灵活强大，是数据分析必备工具库！但处理大型数据集时，需过渡到PySpark才可以发挥并行计算的优势。本文总结了Pandas与PySpark的核心功能代码段，掌握即可丝滑切换。

ShowMeAI
3年前
11k
21
1

大数据开发！Pandas转spark无痛指南！