BigData

BigData

BigData

Big data Study notes.

暂无订阅共15篇文章创建于2022-07-28

浅谈分布式一致性协议 | 青训营笔记

本篇介绍了分布式系统的概念、KV、一致性共识算法、Raft及其流程、使用Raft对KV进行改造等基础概念。

3年前
85
点赞
评论

LSMT存储引擎浅析 | 青训营笔记

本篇介绍了LMST的历史及存储引擎概念、LMST的优劣势、LSMT实现方式、LSMT模型理论及复杂度分析。

3年前
410
点赞
评论

Parquet与ORC：高性能列式存储 | 青训营笔记

本篇介绍了列存与行存的存储格式、Parquet原理、Dremel数据模型、数据布局、数据编码、列存演进历史等基础知识。

3年前
201
点赞
评论

从Kafka到Pulsar：数据流演进之路 | 青训营笔记

本篇介绍了消息队列的基本概念及应用场景、Kafka的应用场景及基础架构、Pulsar的应用场景及基本架构。

3年前
113
点赞
评论

数据湖三剑客：DeltaLake、Hudi与Iceberg详解 | 青训营笔记

本篇介绍了数据湖的发展历史，现今热度较高的数据湖项目、湖仓一体的核心技术、以及湖仓一体项目的应用场景。

3年前
133
点赞
评论

深入浅出 HBase 实战 | 青训营笔记

本篇介绍HBase的基本概念、HBase的架构组成、HBase的工作流程及其细分组件，同时简要介绍了HBase在大数据生态中的定位。

3年前
93
点赞
评论

HDFS 高可用与高扩展性机制分析 | 青训营笔记

本篇介绍了HDFS高可用及扩展，包括元数据的高可用、数据存储高可用、元数据高扩展性、数据存储扩展性。

3年前
171
点赞
评论

HDFS 原理与应用 | 青训营笔记

本篇介绍了Hadoop的体系结构，分布式文件系统、HDFS功能特性、HDFS架构原理、HDFS关键设计、HDFS应用场景等基础知识。

3年前
181
点赞
评论

Presto 架构原理与优化介绍 | 青训营笔记

本篇介绍了OLAP的演进、交互式处理引擎Presto的基础原理及相关概念、Presto的重要机制、以及常见的性能分析工具。

3年前
287
点赞
评论

大数据Shuffle原理与实践 | 青训营笔记

本篇简述了Spark中的Shuffle概念，描述了MapReduce、Shuffle算子、Shuffle的过程，以及Push Shuffle的概念。

3年前
170
点赞
评论

Spark原理与实践 | 青训营笔记

本篇介绍了大数据处理引擎Spark的相关概念，包括Spark的运行架构、SparkCore的原理、RDD、SparkSQL的原理等基础知识。

3年前
104
点赞
评论

流计算中的 Window 计算 | 青训营笔记

本文从批式计算引出处理时间窗口概念，概述了处理时间和事件时间之间所遇到的问题，进而引出Flink中的Watermark概念，并且较为详细的说明了Window及其高级优化。

3年前
141
点赞
评论

Exactly Once 语义在 Flink 中的实现 | 青训营笔记

本文通过说明业务场景中的数据流、动态表转换问题，引出Flink是如何保证Exactly-Once和Checpoint的，同时介绍Chandy-Lamport算法以及端到端Exactly-Once语义。

3年前
98
点赞
评论

流/批/OLAP 一体的 Flink 引擎 | 青训营笔记

本文从大数据概述、Flink概述、Flink整体架构、Flink架构优化、Flink的流/批/OLAP业务应用场景等方面介绍大数据体系中Apache Flink框架的基础知识。

3年前
169
点赞
评论

SQL 查询优化器浅析｜青训营笔记

本文从大数据体系和SQL、常见的查询优化器、社区开源实践、行业前沿趋势四个方面介绍大数据中查询优化的基础知识及重要性。

3年前
153
点赞
评论