语落心生

算法infra

Github: kaori-seasons/undertaker86001/kitalkuyo-gita 人生如棋，落子无悔。不过片刻之间，闲敲棋子落灯花而已。 Apache Geaflow Committer, 参与过两次Gsoc，目前在研究AGI相关

获得徽章 8

190

搜索文章

最新热门

流式数据湖Paimon探秘之旅 (十三) 分区与过期管理

第13章：分区与过期管理导言：如何优雅地清理旧数据在运营一个大型数据系统时，会积累大量的历史数据。如何高效地清理？如何避免误删？这就是分区与过期管理的核心问题。第一部分：分区设计 1.1 分区

16天前
39
点赞
评论

流式数据湖Paimon探秘之旅 (十二) 索引与加速

第12章：索引与加速导言：加快查询速度的利器在前面的章节中，我们讲了文件选择、谓词下推等优化手段。但有时候文件太多，统计信息不够精准，这时就需要索引来加速查询。第一部分：Deletion Vec

16天前
52
点赞
评论

流式数据湖Paimon探秘之旅 (十一) Changelog变更日志

第11章：Changelog变更日志导言：实时数据流的核心在第10章，我们讲了同一主键的多个版本如何合并。现在需要讨论如何让下游系统感知到这些变化。答案就是Changelog（变更日志）。 Cha

16天前
68
点赞
评论

流式数据湖Paimon探秘之旅 (十) Merge Engine合并引擎

第10章：Merge Engine合并引擎导言：同一主键的多个版本怎么合并在之前的章节中，我们讲到LSM Tree会有多个版本的同一主键。比如： Merge Engine的职责：定义如何合并同一主

16天前
53
点赞
评论

流式数据湖Paimon探秘之旅 (九) Compaction压缩机制

第9章：Compaction压缩机制导言：Compaction的目标在第8章，我们学到了LSM Tree的分层结构和读取原理。但如何维护这个结构？如何定期清理冗余数据？答案就是Compaction

16天前
58
点赞
评论

流式数据湖Paimon探秘之旅 (八) LSM Tree核心原理

第8章：LSM Tree核心原理导言：为什么需要LSM Tree 传统数据库使用B+Tree来存储数据： Paimon的选择：LSM Tree（Log-Structured Merge Tree）

16天前
50
点赞
评论

流式数据湖Paimon探秘之旅 (五) 写入流程全解析

第5章：写入流程全解析导言：从应用到文件的完整旅程在第4章，我们了解了FileStore及其两种实现。但是真正的写入操作发生在哪里？数据如何从应用到达磁盘？本章将深入讲解完整的写入链路：第一部

16天前
65
点赞
评论

流式数据湖Paimon探秘之旅 (七) 读取流程全解析

第7章：读取流程全解析读取的三个阶段 Paimon的读取分为三个阶段：扫描计划(Scan)：确定需要读取哪些文件分片生成(Split)：将文件分割成可并行处理的任务数据读取(Read)：从分片

16天前
63
点赞
评论

流式数据湖Paimon探秘之旅 (六) 提交流程与事务保证

第6章：提交流程与事务保证如何确保原子提交？ Paimon使用两阶段提交协议确保分布式写入的一致性：提交的关键步骤 6.1 两阶段提交协议阶段1：Prepare(数据端) 在Flink中，pre

16天前
44
点赞
评论

流式数据湖Paimon探秘之旅 (四) FileStore存储引擎核心

第4章：FileStore存储引擎核心 FileStore是什么？ FileStore 是Paimon的存储引擎实现，负责将Table层的抽象操作转化为具体的文件操作。关键关系： FileStore

16天前
81
点赞
评论

个人成就

文章被点赞 191

文章被阅读 81,164

加入于

2018-02-05