菜鸟a小李

赞

16

|

搜索文章

深入理解 K8S 资源管理和调度|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第 16天 1. kubernetes调度过程假如要创建一个pod(对应Pod1的定义yaml)，对应的调度过程是？ ApiServer 会先把这个待创建的请

3年前
62
1
评论

走进 Yarn 资源管理和调度|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第 15 天 YARN架构 1 RM(ResourceManager) + N NM(NodeManager) ResourceManager的职责一个集群a

3年前
178
1
评论

浅谈分布式一致性协议|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第 14 天先谈分布式设计一个分布式系统必定会遇到一个问题—— 因为分区容忍性（partition tolerance）的存在，就必定要求我们需要在系统可用

3年前
73
1
评论

Parquet 与 ORC：高性能列式存储|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第 13 天什么是列式存储传统的数据编码方式是以行为单位进行，列式存储则是将数据划分成数据块，每个数据块内部按列的方式进行编码存储，通过使用列式存储会有以下

3年前
175
1
评论

从 Kafka 到 Pulsar：数据流演进之路|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第12天历史背景 Pulsar源自Yahoo，于2016年开源并捐献给Apache基金会，并在2018年9月升级成为Apache顶级项目。 Kafka最初由L

3年前
80
1
评论

数据湖三剑客：Delta Lake、Hudi 与 Iceberg 详解|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第11天共同点定性上讲，三者均为 Data Lake 的数据存储中间层，其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的

3年前
220
1
评论

深入浅出 HBase 实战|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第10天 1.1 什么是HBase ? HBase是一个开源的NoSQL分布式数据库，是Apache软件基金会顶级项目之一。参考Google BigTable

3年前
107
1
评论

HDFS 高可用和高扩展机制分析|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第9天一、HDFS的高可用(HA) 下面我们首先来看一下HDFS的高可用，也可以称之为HA(High Available) HDFS的HA，指的是在一个集群中

3年前
171
1
评论

HDFS原理与应用|青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第8天 HDFS原理与应用 1、HDFS原理 HDFS（Hadoop Distributed File System）是一个分布式文件系统，是谷歌的GFS山

3年前
52
1
评论

大数据 Shuffle 原理与实践|青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第7天 1.Shuffle 过程 map 阶段处理的数据如何传递给 reduce 阶段，是 MapReduce 框架中最关键的一个流程，这个流程就叫 shu

3年前
142
1
评论

个人成就

文章被点赞 15

文章被阅读 2,118

加入于

2022-06-28