spark - 七彩城的收藏集 - 掘金

spark

更多收藏集

11篇文章 · 0订阅

spark为什么比mapreduce快？

spark为什么比mapreduce快？首先澄清几个误区： 1：两者都是基于内存计算的，任何计算框架都肯定是基于内存的，所以网上说的spark是基于内存计算所以快，显然是错误的 2;DAG计算模型减

京东云开发者
1年前
450
3
1

StarRocks 助力小红书离线数仓提效，提升百倍回刷性能！

数据处理效率一直是大数据时代的核心话题，它推动着各类数据执行引擎持续迭代产品。从早期的 MapReduce，到今天的 Spark，各行业正不断演进其离线数仓技术架构。现有以 Spark 为核心的数仓

StarRocks_labs
2年前
328
点赞
评论

StarRocks 助力小红书离线数仓提效，提升百倍回刷性能！

从 Clickhouse 到 Apache Doris：有赞业务场景下性能测试与迁移验证

从 Clickhouse 到 Apache Doris 迁移实践：有赞查询提速近 10 倍，OLAP 分析更实时高效！

SelectDB
2年前
3.4k
16
3

字节跳动在Spark SQL上的核心优化实践 | 字节跳动技术沙龙

10月26日，字节跳动技术沙龙 | 大数据架构专场在上海字节跳动总部圆满结束。我们邀请到字节跳动数据仓库架构负责人-郭俊，Kyligence 大数据研发工程师-陶加涛，字节跳动存储工程师-徐明敏，阿里云高级技术专家-白宸和大家进行分享交流。以下是字节跳动数据仓库架构负责人-…

字节跳动技术团队
6年前
11k
22
5

字节跳动在Spark SQL上的核心优化实践 | 字节跳动技术沙龙

货拉拉大数据离线调度平台性能优化实践

大数据离线开发平台作为货拉拉大数据体系最基础的能力之一，支持任意存储数据交换、丰富的任务分析和完善的交互查询服务。随着越来越多的场景接入，平台的挑战也更高。本文将就离线平台针对调度性能优化进行介绍。

货拉拉技术
3年前
2.5k
15
1

货拉拉大数据离线调度平台性能优化实践

如何快速构建企业级数据湖仓？

本文整理自火山引擎开发者社区技术大讲堂第四期演讲，主要介绍了数据湖仓开源趋势、火山引擎 EMR 的架构及特点，以及如何基于火山引擎 EMR 构建企业级数据湖仓。

字节跳动数据平台
3年前
5.3k
3
评论

SQL、Pandas和Spark：如何实现数据透视表？

导读：数据透视表是一个很重要的数据统计操作，最有代表性的当属在Excel中实现（甚至说提及Excel，个人认为其最有用的当属三类：好用的数学函数、便捷的图表制作以及强大的数据透视表功能）。所以，今天本

小数志
3年前
248
4
评论

SparkSQL 在企业级数仓建设的优势

Spark 引擎因为自身强大的生态和方便的编程接口被广泛应用在数据处理场景下，Spark 提供的 Spark SQL 模块更是为使用 Spark 支撑企业数据仓库提供了一个良好的基础设施。

字节跳动技术团队
4年前
19k
19
评论

spark是怎么从RDD升级到DataFrame的？

今天是spark专题的第五篇，我们来看看DataFrame。用过Python做过机器学习的同学对Python当中pandas当中的DataFrame应该不陌生，如果没做过也没有关系，我们简单来介绍一下。DataFrame翻译过来的意思是数据帧，但其实它指的是一种特殊的数据结构…

梁唐
5年前
1.9k
4
1

是时候学习真正的 spark 技术了

spark sql 可以说是 spark 中的精华部分了，我感觉整体复杂度是 spark streaming 的 5 倍以上，现在 spark 官方主推 structed streaming， spark streaming 维护的也不积极了，我们基于 spark 来构建大数…

七牛云
7年前
4.9k
32
2

是时候学习真正的 spark 技术了