首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Paimon
expect7g
创建于2025-06-17
订阅专栏
本专栏重点介绍湖仓相关知识,主要是paimon,后续有新技术,会持续关注
等 1 人订阅
共22篇文章
创建于2025-06-17
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Paimon基本概念
1.文件布局 案例: 数据文件:data/data-00001.parquet(存储数据记录,在bucket下面)。 Manifest 文件:manifest/manifest-xxxx.avro(记
Paimon DQL
<1> 批量查询 Paimon的批量读取返回表快照中的所有数据。默认情况下,批量读取返回最新快照。 在sql-client中,设置执行模式为批即可: 《1》时间旅行 《2》增量查询 <2> 流式查询
新时代多流Join的一个思路----Partial Update
1.partial update是啥? 先提出一个历史问题:Flink流进行多流JOIN,高强度依赖状态和内存,一旦崩盘,数据没有任何保障,又耗资源,又担心崩溃,那么就没有一种更好的方式去解决吗?比如
Paimon也有聚合表了?
<1> Deduplicate--默认 当 Paimon 接收到两条或更多具有相同主键的记录时,它会将它们合并为一条记录以保持主键的唯一性 记录保留策略: 保留最新记录:Paimon 只会保留最新的记
Paimon的LookUpJoin
<1> look up join Paimon支持Lookup Join语法,它用于从 Paimon 查询的数据来补充维度字段。要求一个表具有处理时间属性,而另一个表由查找源连接器支持。 Paimon
Paimon 冲突💣
1.为什么会冲突? Paimon可能有两种类型的提交失败: 快照冲突:快照 ID 已被抢占,表已从另一个作业生成新快照。好,让我们再次提交。 文件冲突:此作业要删除的文件已被其他作业删除。此时,作业只
Paimon的索引
(14) 文件索引和查询性能 对于 Merge On Read 表,您应该注意的最重要的事情是存储桶的数量,这将限制 读取数据的并发性。 对于 MOW(删除向量)或 COW 表或读取优化表, 读取数据
Paimon内部系统表---了解即可
Paimon 提供了一套非常丰富的系统表,帮助用户更好地分析和查询 Paimon 表的状态: 查询数据表的状态:Data System Table。 查询整个 Catalog: Global Syst
Paimon Partition Mark Done --- 流批一体化之一
分区标记完成,流批一体? 首先,您需要定义分区的时间解析器和分区之间的时间间隔,以便确定何时可以正确地将分区标记为 done。 其次,您需要定义 idle-time,它决定了分区没有新数据需要多长时间
Paimon Branch --- 流批一体化之二
Branch是什么? 可以理解为是git的分支,分为主分支、dev分支等等,而最后读取的时候就相当于是分支的一个merge合并 在流式数据处理中,数据可能因为乱序等问题,存在不准确的情况,这是实时的通
Flink-To-Paimon 2pc写入机制
先介绍今天的三位成员,分别是CDC、Paimon Sink、Committer Operator 流程图如下: MySQL CDC Sourceuniform-read snapshot 和 incr
Flink-To-Paimon 读取机制
1.Paimon相关架构 所有相关的Paimon的架构建议去看Paimon基本概念 2.Paimon读取流程 首先,需要知道计算层和存储层之间是怎么连接的 计算层:就是Flink、Spark、Hive
Paimon源码解读 -- PartialUpdateMerge
一.父接口MergeFunction 其实现子类如下图 可以看到,Paimon中所有的Merge Engine都实现了MergeFunction接口,那么继续看该接口中的4个抽象方法 二.Partia
Paimon源码解读 -- Compaction-1.MergeTreeCompactTask
一.抽象父类CompactTask 其实现子类如下图 MergeTreeCompactTask是主键表的合并流程; 其他两个,都是BucketedAppendCompactanager里面的内部类,也
Paimon源码解读 -- Compaction-2.SingleFileWriter和RollingFileWriter
前言 上篇文章Paimon源码解读 -- Compaction-1.MergeTreeCompactTask解析了Paimon-Compaction阶段的大概流程,而最后发现,真正去将文件采用特点算法
Paimon源码解读 -- Compaction-3.MergeSorter
前言 上篇文章Paimon源码解读 -- Compaction-1.MergeTreeCompactTask解析了Paimon-Compaction阶段的大概流程 其中Paimon的compactio
Paimon源码解读 -- Compaction-4.KeyValueFileStoreWrite
前言 本文重点介绍压缩中的KeyValueFileStoreWrite类,该类和compact很多流程都相关 一.KeyValueFileStoreWrite类 该类的继承路线如下 1.代码解析 (0
Paimon源码解读 -- Compaction-5.CompactManager
前言 本文重点介绍CompactManager的机制 一.CompactManager接口 这是个接口,其继承关系如下 二.MergeTreeCompactManager类 1.代码解析 (0) 核心
Paimon源码解读 -- Compaction-6.CompactStrategy
前言 本文重点介绍Paimon-Compaction的重要策略,包括全量压缩、比率压缩等 关键概念: SortedRun:有序的文件集合 Level 0: 每个文件是一个 run (文件间可能有键重叠
Paimon源码解读 -- Compaction-7.FULL_COMPACTION_DELTA_COMMITS
前言 本文重点介绍Paimon压缩参数full-compaction.delta-commits的整体调用流程,涉及到CompactTask的详情:Paimon源码解读 -- Compaction-1
下一页