Siri33

赞

3

|

搜索文章

Parquet 和 ORC|青训营笔记

本次笔记重点内容列式存储和行式存储 Parquet 列存格式的原理 ORC 列存格式的原理以及和Parquet 的对比列存格式的演进数据格式层计算层：各种计算引擎，Rows+Columns 存

3年前
332
点赞
评论

从 Kafka 到 Pulsar的数据流演进|青训营笔记

本次笔记重点内容消息队列概述 Kafka 详解 Pulsar 详解周边和生态消息队列概述应用场景 MQ消息通道实现了上下游解耦，下游不用关注上游变化；下游出现故障时，消息可以缓存在此；上游不

3年前
148
点赞
评论

数据湖三剑客——Delta Lake、Hudi 与 Iceberg|青训营笔记

本次笔记重点内容发展历史——数据湖三阶段核心技术不同的湖仓一体各有所长应用发展历史数据湖最开始的概念——Hadoop,HDFS 同一公司/组织可以使用共享存储，数据访问方便，灵活性高。但是

3年前
116
点赞
评论

HBase|青训营笔记

本次笔记重点内容介绍 HBase 的适用场景和数据模型分析 HBase 的整体架构和模块设计针对大数据场景 HBase 的解决方案分享 HBase 大规模实战的最佳实践 HBase数据模型 H

3年前
146
点赞
评论

HDFS的高可用和高扩容|青训营笔记

本次笔记重点内容 HDFS 元数据服务的高可用 HDFS 数据存储高可用 HDFS 元数据服务的高扩展性 HDFS 数据存储的高扩展性一个“可以用”和“好用”的系统，重点就在“高可用”和“高扩展性”

3年前
244
点赞
评论

HDFS原理|青训营笔记

本次笔记重点内容 HDFS 架构 HDFS 设计与异常处理 HDFS——Hadoop Distributed File System HDFS是一个分布式的文件系统，可以自动处理、规避多种错误场景；数

3年前
95
点赞
评论

Presto架构与优化|青训营笔记

本次笔记重点内容介绍 OLAP 的演进之路、Presto 的设计理念介绍 Presto 的基础概念与原理对 Presto 的特色和重要机制进行讲解和剖析介绍 Presto 常用的优化工具以及在

3年前
139
点赞
评论

Shuffle原理与实践|青训营笔记

本次笔记重点内容 shuffle概述 spark中的shuffle算子 spark中的shuffle过程 push shuffle社区的实现方案以及字节自己的实现方案 Shuffle操作在spark

3年前
137
点赞
评论

Spark原理|青训营笔记

SparkCore原理解析 RDD 它是一个能容错的、能并行执行的分布式数据集，是Spark中的基本单元。它有多个分区，运行在不同节点上；每个RDD都有一个计算函数；RDD之间互相依赖，若一个数据丢失

3年前
144
点赞
评论

Window|青训营笔记

本次笔记重点内容介绍三种最基本的window类型，以及他们的实现原理，结合业务场景介绍一些高级优化的功能和原理结合两个真实业务场景的需求，讲解window是如何解决实际生产问题的 Window分类

3年前
126
点赞
评论

个人成就

文章被点赞 1

文章被阅读 4,470

加入于

2022-07-01