首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
BigData
FlemingFan
创建于2022-07-28
订阅专栏
Big data Study notes.
暂无订阅
共15篇文章
创建于2022-07-28
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
浅谈分布式一致性协议 | 青训营笔记
本篇介绍了分布式系统的概念、KV、一致性共识算法、Raft及其流程、使用Raft对KV进行改造等基础概念。
LSMT存储引擎浅析 | 青训营笔记
本篇介绍了LMST的历史及存储引擎概念、LMST的优劣势、LSMT实现方式、LSMT模型理论及复杂度分析。
Parquet与ORC:高性能列式存储 | 青训营笔记
本篇介绍了列存与行存的存储格式、Parquet原理、Dremel数据模型、数据布局、数据编码、列存演进历史等基础知识。
从Kafka到Pulsar:数据流演进之路 | 青训营笔记
本篇介绍了消息队列的基本概念及应用场景、Kafka的应用场景及基础架构、Pulsar的应用场景及基本架构。
数据湖三剑客:DeltaLake、Hudi与Iceberg详解 | 青训营笔记
本篇介绍了数据湖的发展历史,现今热度较高的数据湖项目、湖仓一体的核心技术、以及湖仓一体项目的应用场景。
深入浅出 HBase 实战 | 青训营笔记
本篇介绍HBase的基本概念、HBase的架构组成、HBase的工作流程及其细分组件,同时简要介绍了HBase在大数据生态中的定位。
HDFS 高可用与高扩展性机制分析 | 青训营笔记
本篇介绍了HDFS高可用及扩展,包括元数据的高可用、数据存储高可用、元数据高扩展性、数据存储扩展性。
HDFS 原理与应用 | 青训营笔记
本篇介绍了Hadoop的体系结构,分布式文件系统、HDFS功能特性、HDFS架构原理、HDFS关键设计、HDFS应用场景等基础知识。
Presto 架构原理与优化介绍 | 青训营笔记
本篇介绍了OLAP的演进、交互式处理引擎Presto的基础原理及相关概念、Presto的重要机制、以及常见的性能分析工具。
大数据Shuffle原理与实践 | 青训营笔记
本篇简述了Spark中的Shuffle概念,描述了MapReduce、Shuffle算子、Shuffle的过程,以及Push Shuffle的概念。
Spark原理与实践 | 青训营笔记
本篇介绍了大数据处理引擎Spark的相关概念,包括Spark的运行架构、SparkCore的原理、RDD、SparkSQL的原理等基础知识。
流计算中的 Window 计算 | 青训营笔记
本文从批式计算引出处理时间窗口概念,概述了处理时间和事件时间之间所遇到的问题,进而引出Flink中的Watermark概念,并且较为详细的说明了Window及其高级优化。
Exactly Once 语义在 Flink 中的实现 | 青训营笔记
本文通过说明业务场景中的数据流、动态表转换问题,引出Flink是如何保证Exactly-Once和Checpoint的,同时介绍Chandy-Lamport算法以及端到端Exactly-Once语义。
流/批/OLAP 一体的 Flink 引擎 | 青训营笔记
本文从大数据概述、Flink概述、Flink整体架构、Flink架构优化、Flink的流/批/OLAP业务应用场景等方面介绍大数据体系中Apache Flink框架的基础知识。
SQL 查询优化器浅析 | 青训营笔记
本文从大数据体系和SQL、常见的查询优化器、社区开源实践、行业前沿趋势四个方面介绍大数据中查询优化的基础知识及重要性。