大数据 - 龙银河的收藏集 - 掘金

大数据

更多收藏集

6篇文章 · 0订阅

Spark核心编程的三大数据结构

Spark计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是： RDD : 弹性分布式数据集累加器：分布式共享只写变量广播变量：分布式共享

摸鱼专家
4年前
8.5k
136
评论

Spark核心编程的三大数据结构

5小时推开Spark的大门——01.初识spark

大家好，我是一条~ 5小时推开Spark的大门，正式开始，第一个小时，我们主要学习以下内容：什么是Spark？ Spa

一条coding
4年前
9.5k
28
评论

Hello Spark! | Spark，从入门到精通

Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架，是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级的大数据处理统一平台。当我们在谈 Spark 的时候可能是指一个 Spark 应用程序，替代 Ma…

美图数据技术团队
7年前
12k
157
5

Hello Spark! | Spark，从入门到精通

流式数据湖Paimon探秘之旅 (二十一) 企业级最佳实践和案例分析

第21章：企业级最佳实践和案例分析导言：从理论到生产的跨越在前面的20章中，我们讲解了Paimon的所有核心功能和技术细节。但理论和生产实践往往存在巨大差距。本章通过真实的企业级案例分析，展示如何

语落心生
4月前
289
3
评论

深度解析数据湖存储方案Lakehouse架构

简介：从数据仓库、数据湖的优劣势，湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。作者：张泊 Databricks 软件工程师 Lakehouse由lake和house两个词组合而成

阿里云云栖号
4年前
2.8k
2
评论

深度解析数据湖存储方案Lakehouse架构

当流计算邂逅数据湖：Paimon 的前生今世

希望通过笔者以下的经历，回顾流计算一步一步扩大场景的过程，并引出 Apache Paimon 的前生今世。

Flink_China
2年前
3.2k
6
3

当流计算邂逅数据湖：Paimon 的前生今世