大数据青训营

大数据青训营

大数据青训营

大数据青训营

暂无订阅共14篇文章创建于2022-07-26

走进 YARN 资源管理和调度|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第 15 天！ YARN 概述 YARN是一个分布式的资源管理系统。 YARN是Hadoop系统的核心组件，主要功能包括负责在Hadoop集群中的资源管理，负

3年前
190
点赞
评论

浅谈分布式一致性协议|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第 14 天! 基础知识点远程过程调用(RPC) 分布式系统中通常将不同组件，或者不同节点的交互使用 RPC 的方式进行封装，在调用方的视角一次远程过程调用

3年前
130
点赞
评论

LSMT 存储引擎浅析|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第 13 天! LSMT的历史 LSMT是 Log-Structured Merge-Tree的缩写，由Patrick O 'Neil etc.在1996年的

3年前
110
点赞
评论

Parquet 和 ORC：高性能列式存储

这是我参与「第四届青训营」笔记创作活动的第 10 天! 行存 vs 列存数据格式层概述计算层:各种计算引擎存储层:承载数据的持久化存储数据格式层:定义了存储层文件内部的组织格式，计算引擎通过

3年前
395
点赞
评论

从 Kafka 到 Pulsar的数据流演进之路|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第 9 天! 消息队列概述消息队列应用场景 MQ 消息通道 EventBridge 事件总线 Data Platform 数据流平台主流消息队列介绍 Ra

3年前
183
点赞
评论

深入浅出 HBase 实战|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第 8 天! 适用场景 “近在线”的海量分布式KV/宽表存储，数据量级达到百TB级以上写密集型应用，高吞吐，可接受一定的时延抖动需要按行顺序扫描的能力接

3年前
247
点赞
评论

HDFS高可用与高扩展机制|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第 8 天! 元数据高可用定义高可用：系统在困境（adversity，比如硬件故障、软件故障、人为错误）中仍可正常工作（正确完成功能，并能达到期望的性能水

3年前
122
点赞
评论

HDFS原理与应用|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第 7 天! HDFS 基本介绍 Hadoop技术体系存储层：HDFS 调度层：YARN 计算框架：MapReduce。值得注意的是另外一个同属于Apach

3年前
201
点赞
评论

Spark原理与实践|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第 6 天! 大数据处理引擎Spark 介绍 Spark 生态 Spark的运行架构和工作原理 Spark应用在集群上运行时，包括了多个独立的进程，这些进程之

3年前
134
点赞
评论

流式计算中的 windows 机制|青训营笔记

这是我参加「第四届青训营」笔记创作活动的第 5 天！ Watermark 1、什么是 Watermark 表示系统认为的当前真实的事件时间。批处理是一段长时间（往往一天）后对输入计算，得到输出。但是

3年前
115
点赞
评论

查询优化器（补）|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第 4 天! 1、常见的查询优化器查询优化器分类 Top-down Optimizer 从目标输出开始，由上往下遍历计划树，找到完整的最优执行计划例子：

3年前
209
点赞
评论

第三节：Exactly Once 语义在 Flink 中的实现|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第 3 天! 1、数据流和动态表传统SQL和流处理有界：数据在一定程度上固定流：数据源源不断改变、增减数据流和动态表转换动态表：随时间不断变

3年前
106
2
评论

第二节：流_批_OLAP一体的Flink引擎|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第 2 天!是关于流_批_OLAP一体的Flink引擎|青训营笔记

3年前
188
2
评论

大数据体系和SQL|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第 1 天! 文章包括大数据体系、SQL处理流程、分布式中的Shuffle、SQL中group by与 join

3年前
172
2
评论