首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
湖仓
expect7g
创建于2025-06-17
订阅专栏
本专栏重点介绍湖仓相关知识,主要是paimon,后续有新技术,会持续关注
暂无订阅
共10篇文章
创建于2025-06-17
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Paimon DQL
<1> 批量查询 Paimon的批量读取返回表快照中的所有数据。默认情况下,批量读取返回最新快照。 在sql-client中,设置执行模式为批即可: 《1》时间旅行 《2》增量查询 <2> 流式查询
Paimon内部系统表---了解即可
Paimon 提供了一套非常丰富的系统表,帮助用户更好地分析和查询 Paimon 表的状态: 查询数据表的状态:Data System Table。 查询整个 Catalog: Global Syst
分区标记完成--实现流到批的转化
分区标记完成,流批一体? 首先,您需要定义分区的时间解析器和分区之间的时间间隔,以便确定何时可以正确地将分区标记为 done。 其次,您需要定义 idle-time,它决定了分区没有新数据需要多长时间
新时代多流Join的一个思路----Partial Update
1.partial update是啥? 先提出一个历史问题:Flink流进行多流JOIN,高强度依赖状态和内存,一旦崩盘,数据没有任何保障,又耗资源,又担心崩溃,那么就没有一种更好的方式去解决吗?比如
Paimon也有聚合表了?
<1> Deduplicate--默认 当 Paimon 接收到两条或更多具有相同主键的记录时,它会将它们合并为一条记录以保持主键的唯一性 记录保留策略: 保留最新记录:Paimon 只会保留最新的记
Paimon的LookUpJoin
<1> look up join Paimon支持Lookup Join语法,它用于从 Paimon 查询的数据来补充维度字段。要求一个表具有处理时间属性,而另一个表由查找源连接器支持。 Paimon
Flink-To-Paimon 2pc机制
先介绍今天的三位成员,分别是CDC、Paimon Sink、Committer Operator 流程图如下: MySQL CDC Sourceuniform-read snapshot 和 incr
Paimon基本概念
1.文件布局 案例: 数据文件:data/data-00001.parquet(存储数据记录,在bucket下面)。 Manifest 文件:manifest/manifest-xxxx.avro(记
湖仓进阶优化思路---持续更新
进阶优化 1.写入性能 Paimon的写入性能与检查点密切相关,因此需要更大的写入吞吐量: Ø 增加检查点间隔,或者仅使用批处理模式。 Ø 增加写入缓冲区大小。 Ø 启用写缓冲区溢出。 Ø 如果您使用
湖仓相关场景---持续更新
一.场景问题总结 1.CDC的乱序问题 如下图中左侧所示,数据分片更新时产生先+D 后+I消息,由于数据分库分表导致先输出+I 后输出+D,数据产生乱序。 解决方案:基于Watermark + Sta