大数据笔记 | 第四届字节青训营

大数据笔记 | 第四届字节青训营

大数据笔记 | 第四届字节青训营

大数据笔记 | 第四届字节青训营

暂无订阅共10篇文章创建于2022-07-24

从 Kafka 到 Pulsar：数据流演进之路 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第10天课程内容 01 消息队列的概述 1.1 消息队列的应用场景 MQ消息通道：用在工程开发中，可以理解为一个list或者queue，用于上下游的解耦，

3年前
93
点赞
评论

数据湖三剑客：Delta Lake、Hudi 与 Iceberg 详解 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第9天课程内容 01 发展历史 1.1 Hadoop No schema。不知道数据集的详情 1.2 Hive Hive，在数据湖对数据集中定义，即元数据

3年前
325
点赞
评论

深入浅出 HBase 实战 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第8天课程内容 01 适用场景 1.1 HBase的设计理念看来Google的三篇论文还是很有指导意义的，一定要抽时间看一下。 1.2 数据模型结合下

3年前
142
点赞
评论

HDFS 高可用和高扩展机制分析 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第7天 01 元数据高可用 1.1 高可用的需求高可用的形式 \ 1.2 HDFS主备同步实现日志是全局有序的，目录树和文件信息的更新。块的位置信息不在

3年前
86
点赞
评论

HDFS 原理与应用 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第6天课程内容 01 HDFS基本介绍 1.3 HDFS介绍 1.2 单机文件系统 windows和linux的文件系统 1.3 分布式文件系统大容量

3年前
88
点赞
评论

GitHub协作指南 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第5天环境 windows系统需要安装git 安装地址：https://git-scm.com/download/win，一路next即可。检查是否安装

3年前
135
点赞
评论

Spark 原理与实践 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第4天 01 Spark介绍 1.1 大数据处理技术栈 1.2 常见大数据处理链路 1.3 常见的大数据处理引擎 1.4 Spark官网介绍关键特征多语

3年前
127
点赞
评论

Exactly Once 语义在 Flink 中的实现 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第3天 01 数据流和动态表如何在数据流上执行SQL语句，说明流式处理中的状态的概念 1.1 随处可见的流式数据 1.2 传统SQL和流处理 1.3 数据

3年前
104
点赞
评论

流/批/OLAP 一体的 Flink 引擎介绍 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第2天 01 Flink概述 1.1 Flink诞生背景 1.1.1 大数据计算架构发展历史 1.1.2 为什么需要流式计算对业务的实时性要求比较大 1.

3年前
215
1
评论

SQL Optimizer 解析 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第1天课程内容 01 大数据体系 1.1 大数据体系为什么先介绍SQL? SQL简单，作为大数据框架对外提供统一接口。 One SQL rules bi

3年前
174
点赞
评论