首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
Spark
订阅
用户5845051696672
更多收藏集
微信扫码分享
微信
新浪微博
QQ
11篇文章 · 0订阅
浅谈Spark之NativeSQL引擎
我们在Spark任务的DAG图中很容易看到WSCG(全阶段代码生成)的身影。CodeGen技术从算子融合角度解决虚函数开销和中间数据物化问题:简单来说,CodeGen框架通过生成与手写代码语
Apache Celeborn 让 Spark 和 Flink 更快更稳更弹性
阿里云/数据湖 Spark 引擎负责人周克勇(一锤)在 Streaming Lakehouse Meetup 的分享。
Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native
Celeborn 采用了 Push Shuffle 的设计,通过远端存储、数据重组、内存缓存、多副本等设计,不仅进一步提升 Gluten Shuffle 的性能和稳定性,还使得 Gluten 拥有更好
如何快速构建企业级数据湖仓?
本文整理自火山引擎开发者社区技术大讲堂第四期演讲,主要介绍了数据湖仓开源趋势、火山引擎 EMR 的架构及特点,以及如何基于火山引擎 EMR 构建企业级数据湖仓。
数据处理的大一统——从 Shell 脚本到 SQL 引擎
“工业流水线”的鼻祖,福特 T 型汽车[1]的电机装配,将组装过程拆成 29 道工序,将装备时间由平均二十分钟降到五分钟,效率提升四倍 ,下图图源[2]。 这种流水线的思想在数据处理过程中也随处可见。
一文带你全面剖析 Facebook Velox 运行机制
概述 Facebook Velox 是一个针对 SQL 运行时的 C++ 库,旨在统一 Facebook 各种计算流,包括 Spark 和 Presto,使用推的模式、支持向量计算。
Parquet 和 ORC:高性能列式存储 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的的第13天 今天是大数据专场基础班的第十三次课,主要内容是Parquet 和 ORC:高性能列式存储,主要分为下面四个板块。
字节跳动在Spark SQL上的核心优化实践 | 字节跳动技术沙龙
10月26日,字节跳动技术沙龙 | 大数据架构专场 在上海字节跳动总部圆满结束。我们邀请到字节跳动数据仓库架构负责人-郭俊,Kyligence 大数据研发工程师-陶加涛,字节跳动存储工程师-徐明敏,阿里云高级技术专家-白宸和大家进行分享交流。 以下是字节跳动数据仓库架构负责人-…
【大数据专场 学习资料五】第四届字节跳动青训营
> 第四届字节跳动青训营讲师非常用心给大家整理了课前、中、后的学习内容,同学们自我评估,选择性查漏补缺,便于大家更好的跟上讲师们的节奏,祝大家学习愉快,多多提问交流~
大数据量下Spark性能优化的一些方法
一般我们在写SQL的时候通常使用Join算子来进行关联表,这方面的查询也一般是最常见的。下文仅对Join的流程进行简述,以及提供相关的优化方法 在具体的Join实现层面,Spark SQl提供了BoradcastJoinExec,ShuffleHashJoinExec和Sort…