首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
spark
订阅
七彩城
更多收藏集
微信扫码分享
微信
新浪微博
QQ
11篇文章 · 0订阅
spark为什么比mapreduce快?
spark为什么比mapreduce快? 首先澄清几个误区: 1:两者都是基于内存计算的,任何计算框架都肯定是基于内存的,所以网上说的spark是基于内存计算所以快,显然是错误的 2;DAG计算模型减
StarRocks 助力小红书离线数仓提效,提升百倍回刷性能!
数据处理效率一直是大数据时代的核心话题,它推动着各类数据执行引擎持续迭代产品。从早期的 MapReduce,到今天的 Spark,各行业正不断演进其离线数仓技术架构。 现有以 Spark 为核心的数仓
从 Clickhouse 到 Apache Doris:有赞业务场景下性能测试与迁移验证
从 Clickhouse 到 Apache Doris 迁移实践:有赞查询提速近 10 倍,OLAP 分析更实时高效!
字节跳动在Spark SQL上的核心优化实践 | 字节跳动技术沙龙
10月26日,字节跳动技术沙龙 | 大数据架构专场 在上海字节跳动总部圆满结束。我们邀请到字节跳动数据仓库架构负责人-郭俊,Kyligence 大数据研发工程师-陶加涛,字节跳动存储工程师-徐明敏,阿里云高级技术专家-白宸和大家进行分享交流。 以下是字节跳动数据仓库架构负责人-…
货拉拉大数据离线调度平台性能优化实践
大数据离线开发平台作为货拉拉大数据体系最基础的能力之一,支持任意存储数据交换、丰富的任务分析和完善的交互查询服务。随着越来越多的场景接入,平台的挑战也更高。本文将就离线平台针对调度性能优化进行介绍。
如何快速构建企业级数据湖仓?
本文整理自火山引擎开发者社区技术大讲堂第四期演讲,主要介绍了数据湖仓开源趋势、火山引擎 EMR 的架构及特点,以及如何基于火山引擎 EMR 构建企业级数据湖仓。
SQL、Pandas和Spark:如何实现数据透视表?
导读:数据透视表是一个很重要的数据统计操作,最有代表性的当属在Excel中实现(甚至说提及Excel,个人认为其最有用的当属三类:好用的数学函数、便捷的图表制作以及强大的数据透视表功能)。所以,今天本
SparkSQL 在企业级数仓建设的优势
Spark 引擎因为自身强大的生态和方便的编程接口被广泛应用在数据处理场景下,Spark 提供的 Spark SQL 模块更是为使用 Spark 支撑企业数据仓库提供了一个良好的基础设施。
spark是怎么从RDD升级到DataFrame的?
今天是spark专题的第五篇,我们来看看DataFrame。 用过Python做过机器学习的同学对Python当中pandas当中的DataFrame应该不陌生,如果没做过也没有关系,我们简单来介绍一下。DataFrame翻译过来的意思是数据帧,但其实它指的是一种特殊的数据结构…
是时候学习真正的 spark 技术了
spark sql 可以说是 spark 中的精华部分了,我感觉整体复杂度是 spark streaming 的 5 倍以上,现在 spark 官方主推 structed streaming, spark streaming 维护的也不积极了, 我们基于 spark 来构建大数…