Spark - 用户5845051696672的收藏集 - 掘金

Spark

用户5845051696672

更多收藏集

11篇文章 · 0订阅

浅谈Spark之NativeSQL引擎

我们在Spark任务的DAG图中很容易看到WSCG（全阶段代码生成）的身影。CodeGen技术从算子融合角度解决虚函数开销和中间数据物化问题：简单来说，CodeGen框架通过生成与手写代码语

1024点线面
3年前
2.0k
3
评论

Apache Celeborn 让 Spark 和 Flink 更快更稳更弹性

阿里云/数据湖 Spark 引擎负责人周克勇（一锤）在 Streaming Lakehouse Meetup 的分享。

Flink_China
2年前
1.3k
1
评论

Apache Celeborn 让 Spark 和 Flink 更快更稳更弹性

Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native

Celeborn 采用了 Push Shuffle 的设计，通过远端存储、数据重组、内存缓存、多副本等设计，不仅进一步提升 Gluten Shuffle 的性能和稳定性，还使得 Gluten 拥有更好

阿里云大数据AI技术
2年前
1.8k
1
评论

Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native

如何快速构建企业级数据湖仓？

本文整理自火山引擎开发者社区技术大讲堂第四期演讲，主要介绍了数据湖仓开源趋势、火山引擎 EMR 的架构及特点，以及如何基于火山引擎 EMR 构建企业级数据湖仓。

字节跳动数据平台
3年前
5.3k
3
评论

数据处理的大一统——从 Shell 脚本到 SQL 引擎

“工业流水线”的鼻祖，福特 T 型汽车[1]的电机装配，将组装过程拆成 29 道工序，将装备时间由平均二十分钟降到五分钟，效率提升四倍，下图图源[2]。这种流水线的思想在数据处理过程中也随处可见。

木鸟杂记
2年前
1.7k
2
评论

数据处理的大一统——从 Shell 脚本到 SQL 引擎

一文带你全面剖析 Facebook Velox 运行机制

概述 Facebook Velox 是一个针对 SQL 运行时的 C++ 库，旨在统一 Facebook 各种计算流，包括 Spark 和 Presto，使用推的模式、支持向量计算。

木鸟杂记
3年前
4.1k
1
评论

一文带你全面剖析 Facebook Velox 运行机制

Parquet 和 ORC：高性能列式存储 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第13天今天是大数据专场基础班的第十三次课，主要内容是Parquet 和 ORC：高性能列式存储，主要分为下面四个板块。

Rainbow_Sea
3年前
770
点赞
评论

字节跳动在Spark SQL上的核心优化实践 | 字节跳动技术沙龙

10月26日，字节跳动技术沙龙 | 大数据架构专场在上海字节跳动总部圆满结束。我们邀请到字节跳动数据仓库架构负责人-郭俊，Kyligence 大数据研发工程师-陶加涛，字节跳动存储工程师-徐明敏，阿里云高级技术专家-白宸和大家进行分享交流。以下是字节跳动数据仓库架构负责人-…

字节跳动技术团队
6年前
11k
22
5

字节跳动在Spark SQL上的核心优化实践 | 字节跳动技术沙龙

【大数据专场学习资料五】第四届字节跳动青训营

> 第四届字节跳动青训营讲师非常用心给大家整理了课前、中、后的学习内容，同学们自我评估，选择性查漏补缺，便于大家更好的跟上讲师们的节奏，祝大家学习愉快，多多提问交流～

字节跳动青训营
3年前
2.5k
19
评论

大数据量下Spark性能优化的一些方法

一般我们在写SQL的时候通常使用Join算子来进行关联表，这方面的查询也一般是最常见的。下文仅对Join的流程进行简述，以及提供相关的优化方法在具体的Join实现层面，Spark SQl提供了BoradcastJoinExec,ShuffleHashJoinExec和Sort…

语落心生
5年前
4.2k
2
评论