一个Small程序媛

赞

11

|

搜索文章

从Kafka到pulsar-数据流演进之路 |青训营笔记

消息队列的应用场景有哪些？ Pulsar 相比较与 Kafka 为什么和云原生更加适配？存储计算分离带来的优势？存储计算分离之后，计算层可以做哪些工作？

3年前
85
点赞
评论

从Kafka到pulsar-数据流演进之路 |青训营笔记

数据湖三剑客：Delta Lake、Hudi、Icebery详解 |青训营笔记

这是我参与「第四届青训营」笔记创作活动的第10天. 下面我们来开启数据流部分。Parquet-高性能列式存储：过滤下推到存储侧，更好地压缩性能文件格式列存储，类似于CSV。

3年前
131
点赞
评论

数据湖三剑客：Delta Lake、Hudi、Icebery详解 |青训营笔记

深入浅出HBase实战 |青训营笔记

HDFS是一种开源的分布式文件系统，基于常见商用硬件构造海量大规模存储集群，提供极低的存储成本，极大的存储容量支持。HBase是基于HDFS实现存储计算分离架构的分布式表格存储服务。

3年前
204
1
评论

深入浅出HBase实战 |青训营笔记

HDFS高可用与高扩展性机制分析 |青训营笔记

在上节课中，我们了解了HDFS的架构和读写流程。HDFS通过将文件分块来存储大文件，HDFS的组件有NN、DN、Client等。一个可以用的系统和好用的系统，差距就是高可用和高扩展性。

3年前
150
点赞
评论

HDFS高可用与高扩展性机制分析 |青训营笔记

HDFS原理与应用 |青训营笔记

在之前的课程中，我们学习了计算框架Flink、Spark以及查询引擎Presto。下面让我们看看数据是如何存放的。

3年前
71
点赞
评论

HDFS原理与应用 |青训营笔记

Presto架构原理与优化 |青训营笔记

Presto 作为大数据领域常见的计算引擎，支持多数据源联邦查询、多租户任务的管理与调度，并且具有内存化计算、pipeline化处理数据等特点，使其在交互式 SQL 查询领域中被广泛使用。

3年前
152
点赞
评论

Presto架构原理与优化 |青训营笔记

大数据Shuffle原理与实践 |青训营笔记

一、Shuffle概述二、shuffle算子三、Shuffle过程四、Push Shuffle五、

3年前
267
1
评论

大数据Shuffle原理与实践 |青训营笔记

Spark 原理与实践 |青训营笔记

一、大数据处理引擎Spark介绍二、SparkCore原理解析三、SparkSQL原理解析四、业界挑战与实践五、课后自测

3年前
191
1
评论

Spark 原理与实践 |青训营笔记

流式计算中的Window机制 |青训营笔记

1、概述流式计算跟批计算，以及实时数仓和离线数仓的区别；引出流式计算中的window计算定义以及挑战。 2、介绍实时计算中的Watermark概念，以及如何产生、传递，还有一些典型的应用。

3年前
120
1
评论

流式计算中的Window机制 |青训营笔记

流/批/OLAP一体的Flink引擎 |青训营笔记

一、Flink概述二、Flink整体架构三、Flink架构优化四、Flink应用案例流/批/OLAP一体的Flink引擎

3年前
146
1
评论

流/批/OLAP一体的Flink引擎 |青训营笔记

个人成就

文章被点赞 9

文章被阅读 3,508

加入于

2022-07-01