shiyue

赞

40

|

搜索文章

赞

文章( 20 ) 沸点( 20 )

【大数据专场学习资料七】第四届字节跳动青训营

第四届字节跳动青训营讲师非常用心给大家整理了课前、中、后的学习内容，同学们自我评估，选择性查漏补缺，便于大家更好的跟上讲师们的节奏，祝大家学习愉快，多多提问交流～

字节跳动青训营
3年前
2.3k
14
评论

Yarn 资源管理和调度|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第22天青训营已经接近尾声了，项目也要开始开展了，后面可能会更一些项目方面的文章，好了废话少说，继续更文 yarn是什么，yarn是Hadoop 2.0

shiyue
3年前
327
1
评论

分布式一致性协议|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第21天什么是分布式一致性在分布式系统中，为了消除单点提高系统可用性，通常会使用副本来进行容错，但这会带来另一个问题，即如何保证多个副本之间的一致性？

shiyue
3年前
111
1
评论

LSMT 存储引擎|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第20天 LSMT是什么 LSMT，即Log-Structured Merge-Tree，这是一个经典的数据结构，在大数据系统中有着非常广泛的应用。

shiyue
3年前
393
1
评论

Parquet 和 ORC的高性能列式存储|青训营笔记

这是我参与「第四届青训营」列式存储笔记创作活动的第18天今天带来的是列式存储行存 vs 列存数据格式层数据格式层：定义了存储层文件内部的组织格式，计算引擎通过格式层的支持来读写文件

shiyue
3年前
197
1
评论

从 Kafka 到 Pulsar|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第17天继续更文主流消息队列 Kafka 详解 Kafka的特性高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒可扩展性

shiyue
3年前
102
1
评论

数据湖三剑客：Delta Lake、Hudi 与 Iceberg|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第15天发展历史数据湖发展阶段-Hadoop 数据湖最开始的概念——分布式存储HDFS使用目录来区分不同的数据集。好处:同─公司/组织可以使用共享存储心

shiyue
3年前
132
1
评论

HBase|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第14天今天带来的是HBase... 特性 Hbase是一种NoSQL数据库，这意味着它不像传统的RDBMS数据库那样支持SQL作为查询语言。Hbase是一

shiyue
3年前
156
1
评论

HDFS 的元数据高可用|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第13天今天带来的是HDFS的高可用性。高可用复制状态机 Replicated State Machine 操作日志 Op Log / Edit Log

shiyue
3年前
136
1
评论

HDFS 原理|青训营笔记

这是我参与「第四届青训营」笔记创作活动的第12天今天带来的是HDFS原理，HDFS概述 HDFS集群分为两大角色：NameNode、DataNode (Secondary Namenode)

shiyue
3年前
127
1
评论

个人成就

文章被点赞 16

文章被阅读 2,786

加入于

2022-07-07