Paimon

Paimon

Paimon

本专栏重点介绍湖仓相关知识，主要是paimon，后续有新技术，会持续关注

等 4 人订阅共23篇文章创建于2025-06-17

Paimon基本概念

1.文件布局案例：数据文件：data/data-00001.parquet（存储数据记录，在bucket下面）。 Manifest 文件：manifest/manifest-xxxx.avro（记

1年前
495
1
评论

<1> 批量查询 Paimon的批量读取返回表快照中的所有数据。默认情况下，批量读取返回最新快照。在sql-client中，设置执行模式为批即可：《1》时间旅行《2》增量查询 <2> 流式查询

12月前
350
1
评论

新时代多流Join的一个思路----Partial Update

1.partial update是啥？先提出一个历史问题：Flink流进行多流JOIN，高强度依赖状态和内存，一旦崩盘，数据没有任何保障，又耗资源，又担心崩溃，那么就没有一种更好的方式去解决吗？比如

1年前
362
1
评论

Paimon也有聚合表了？

<1> Deduplicate--默认当 Paimon 接收到两条或更多具有相同主键的记录时，它会将它们合并为一条记录以保持主键的唯一性记录保留策略：保留最新记录：Paimon 只会保留最新的记

1年前
383
1
评论

Paimon的LookUpJoin

<1> look up join Paimon支持Lookup Join语法，它用于从 Paimon 查询的数据来补充维度字段。要求一个表具有处理时间属性，而另一个表由查找源连接器支持。 Paimon

1年前
477
1
评论

Paimon 冲突💣

1.为什么会冲突？ Paimon可能有两种类型的提交失败：快照冲突：快照 ID 已被抢占，表已从另一个作业生成新快照。好，让我们再次提交。文件冲突：此作业要删除的文件已被其他作业删除。此时，作业只

7月前
294
1
评论

Paimon的索引

(14) 文件索引和查询性能对于 Merge On Read 表，您应该注意的最重要的事情是存储桶的数量，这将限制读取数据的并发性。对于 MOW（删除向量）或 COW 表或读取优化表，读取数据

11月前
487
点赞
评论

Paimon内部系统表---了解即可

Paimon 提供了一套非常丰富的系统表，帮助用户更好地分析和查询 Paimon 表的状态：查询数据表的状态：Data System Table。查询整个 Catalog： Global Syst

1年前
248
点赞
评论

Paimon Partition Mark Done --- 流批一体化之一

分区标记完成，流批一体？首先，您需要定义分区的时间解析器和分区之间的时间间隔，以便确定何时可以正确地将分区标记为 done。其次，您需要定义 idle-time，它决定了分区没有新数据需要多长时间

1年前
332
1
评论

Paimon Branch --- 流批一体化之二

Branch是什么？可以理解为是git的分支，分为主分支、dev分支等等，而最后读取的时候就相当于是分支的一个merge合并在流式数据处理中，数据可能因为乱序等问题，存在不准确的情况，这是实时的通

6月前
274
1
评论

Flink-To-Paimon 2pc写入机制

先介绍今天的三位成员，分别是CDC、Paimon Sink、Committer Operator 流程图如下： MySQL CDC Sourceuniform-read snapshot 和 incr

1年前
403
1
评论

Flink-To-Paimon 读取机制

1.Paimon相关架构所有相关的Paimon的架构建议去看Paimon基本概念 2.Paimon读取流程首先，需要知道计算层和存储层之间是怎么连接的计算层：就是Flink、Spark、Hive

7月前
522
点赞
评论

Paimon源码解读 -- PartialUpdateMerge

一.父接口MergeFunction 其实现子类如下图可以看到，Paimon中所有的Merge Engine都实现了MergeFunction接口，那么继续看该接口中的4个抽象方法二.Partia

7月前
184
1
评论

Paimon源码解读 -- Compaction-1.MergeTreeCompactTask

一.抽象父类CompactTask 其实现子类如下图 MergeTreeCompactTask是主键表的合并流程；其他两个，都是BucketedAppendCompactanager里面的内部类，也

6月前
181
1
评论

Paimon源码解读 -- Compaction-2.SingleFileWriter和RollingFileWriter

前言上篇文章Paimon源码解读 -- Compaction-1.MergeTreeCompactTask解析了Paimon-Compaction阶段的大概流程，而最后发现，真正去将文件采用特点算法

6月前
192
点赞
评论

Paimon源码解读 -- Compaction-3.MergeSorter

前言上篇文章Paimon源码解读 -- Compaction-1.MergeTreeCompactTask解析了Paimon-Compaction阶段的大概流程其中Paimon的compactio

6月前
148
点赞
评论

Paimon源码解读 -- Compaction-4.KeyValueFileStoreWrite

前言本文重点介绍压缩中的KeyValueFileStoreWrite类，该类和compact很多流程都相关一.KeyValueFileStoreWrite类该类的继承路线如下 1.代码解析 (0

6月前
146
点赞
评论

Paimon源码解读 -- Compaction-5.CompactManager

前言本文重点介绍CompactManager的机制一.CompactManager接口这是个接口，其继承关系如下二.MergeTreeCompactManager类 1.代码解析 (0) 核心

6月前
126
点赞
评论

Paimon源码解读 -- Compaction-6.CompactStrategy

前言本文重点介绍Paimon-Compaction的重要策略，包括全量压缩、比率压缩等关键概念： SortedRun：有序的文件集合 Level 0: 每个文件是一个 run (文件间可能有键重叠

6月前
351
点赞
评论

Paimon源码解读 -- Compaction-7.FULL_COMPACTION_DELTA_COMMITS

前言本文重点介绍Paimon压缩参数full-compaction.delta-commits的整体调用流程，涉及到CompactTask的详情：Paimon源码解读 -- Compaction-1

6月前
214
点赞
评论