首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
湖仓
expect7g
创建于2025-06-17
订阅专栏
本专栏重点介绍湖仓相关知识,主要是paimon,后续有新技术,会持续关注
暂无订阅
共11篇文章
创建于2025-06-17
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Paimon基本概念
1.文件布局 案例: 数据文件:data/data-00001.parquet(存储数据记录,在bucket下面)。 Manifest 文件:manifest/manifest-xxxx.avro(记
Paimon DQL
<1> 批量查询 Paimon的批量读取返回表快照中的所有数据。默认情况下,批量读取返回最新快照。 在sql-client中,设置执行模式为批即可: 《1》时间旅行 《2》增量查询 <2> 流式查询
新时代多流Join的一个思路----Partial Update
1.partial update是啥? 先提出一个历史问题:Flink流进行多流JOIN,高强度依赖状态和内存,一旦崩盘,数据没有任何保障,又耗资源,又担心崩溃,那么就没有一种更好的方式去解决吗?比如
Paimon也有聚合表了?
<1> Deduplicate--默认 当 Paimon 接收到两条或更多具有相同主键的记录时,它会将它们合并为一条记录以保持主键的唯一性 记录保留策略: 保留最新记录:Paimon 只会保留最新的记
Paimon的LookUpJoin
<1> look up join Paimon支持Lookup Join语法,它用于从 Paimon 查询的数据来补充维度字段。要求一个表具有处理时间属性,而另一个表由查找源连接器支持。 Paimon
Paimon 冲突💣
1.为什么会冲突? Paimon可能有两种类型的提交失败: 快照冲突:快照 ID 已被抢占,表已从另一个作业生成新快照。好,让我们再次提交。 文件冲突:此作业要删除的文件已被其他作业删除。此时,作业只
Paimon的索引
(14) 文件索引和查询性能 对于 Merge On Read 表,您应该注意的最重要的事情是存储桶的数量,这将限制 读取数据的并发性。 对于 MOW(删除向量)或 COW 表或读取优化表, 读取数据
Paimon内部系统表---了解即可
Paimon 提供了一套非常丰富的系统表,帮助用户更好地分析和查询 Paimon 表的状态: 查询数据表的状态:Data System Table。 查询整个 Catalog: Global Syst
Paimon Partition Mark Done---流批一体化之一
分区标记完成,流批一体? 首先,您需要定义分区的时间解析器和分区之间的时间间隔,以便确定何时可以正确地将分区标记为 done。 其次,您需要定义 idle-time,它决定了分区没有新数据需要多长时间
Flink-To-Paimon 2pc写入机制
先介绍今天的三位成员,分别是CDC、Paimon Sink、Committer Operator 流程图如下: MySQL CDC Sourceuniform-read snapshot 和 incr
Flink-To-Paimon 读取机制
1.Paimon相关架构 所有相关的Paimon的架构建议去看Paimon基本概念 2.Paimon读取流程 首先,需要知道计算层和存储层之间是怎么连接的 计算层:就是Flink、Spark、Hive