冬天真的冷

赞

1

|

搜索文章

数据湖三剑客：Delta Lake、Hudi 与 Iceberg 详解 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第10天一、发展历史数据湖三阶段：Hadoop、Hive、湖仓一体 Hadoop HDFS-分布式存储系统: HDFS通过将文件分块来存储大文件，HDFS

3年前
124
点赞
评论

深入浅出HBase实战｜青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第10天一、适用场景 1.1 什么是HBase ? HBase基于HDFS实现存储计算分离架构的分布式表格存储服务。 HBase是一个开源的NoSQL分布式

3年前
158
点赞
评论

HDFS高可用与高扩展性机制分析｜青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第9天一、元数据高可用（主备系统：基于日志、自动切换、实时热备） 1.1服务高可用的需求故障类型: 1）硬件故障 2）软件故障 3）人为故障灾难:数据

3年前
102
点赞
评论

HDFS原理与应用 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第8天一.HDFS基本介绍 0.1 HDFS: Hadoop Distributed File System 1.1 Windows单机文件系统 1.2 L

3年前
97
点赞
评论

Presto 架构原理与优化介绍 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第七天 1.概述大数据与OALP系统的演进什么是大数据关于大数据我们参考马丁·希尔伯特的总结：大数据其实是在2000年后，因为信息化的快速发展、信息交

3年前
67
点赞
评论

Spark原理与实践 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第6天一、大数据处理引擎Spark介绍 1.大数据处理技术栈 2.常见大数据处理链路 3.开源大数据处理引擎 Batch：Hadoop、Hive、Spar

3年前
68
点赞
评论

大数据 Shuffle 原理与实践 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的第5天 1.Shuffle概述 MapReduce概述 2004年，谷歌发布了《MapReduce:Simplified Data Processing on

3年前
90
点赞
评论

流计算中的window计算 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的第4天一、概述 1.流式计算vs批式计算数据价值：实时性越高、数据价值越高 2.批处理批处理模型典型的数仓为T+1架构，即数据计算是天级别的，当天只能看到

3年前
125
点赞
评论

Exactly Once 语义在 Flink 中的实现 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第3天！ Exactly Once 语义 1.数据流和动态表 1.1 随处可见的流式数据 1.2 传统SQL和流处理 1.3 数据流和动态表转换 Strea

3年前
77
点赞
评论

流/批/OLAP 一体的Flink引擎 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第2天 Flink 一、Apache Flink 的诞生背景 1、什么是大数据大数据（Big Data） :指无法在一定时间内用常规软件工具对其进行获取

3年前
173
点赞
评论

个人成就

文章被点赞 1

文章被阅读 1,220

加入于

2022-06-28