首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
expect7g
掘友等级
实时大数据开发工程师
实时大数据相关技术等
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
30
文章 30
沸点 0
赞
30
返回
|
搜索文章
赞
文章( 30 )
沸点( 0 )
Paimon DQL
<1> 批量查询 Paimon的批量读取返回表快照中的所有数据。默认情况下,批量读取返回最新快照。 在sql-client中,设置执行模式为批即可: 《1》时间旅行 《2》增量查询 <2> 流式查询
Paimon基本概念
1.文件布局 案例: 数据文件:data/data-00001.parquet(存储数据记录,在bucket下面)。 Manifest 文件:manifest/manifest-xxxx.avro(记
Flink-To-Paimon 2pc写入机制
先介绍今天的三位成员,分别是CDC、Paimon Sink、Committer Operator 流程图如下: MySQL CDC Sourceuniform-read snapshot 和 incr
Paimon的LookUpJoin
<1> look up join Paimon支持Lookup Join语法,它用于从 Paimon 查询的数据来补充维度字段。要求一个表具有处理时间属性,而另一个表由查找源连接器支持。 Paimon
新时代多流Join的一个思路----Partial Update
1.partial update是啥? 先提出一个历史问题:Flink流进行多流JOIN,高强度依赖状态和内存,一旦崩盘,数据没有任何保障,又耗资源,又担心崩溃,那么就没有一种更好的方式去解决吗?比如
Paimon Partition Mark Done---流批一体化之一
分区标记完成,流批一体? 首先,您需要定义分区的时间解析器和分区之间的时间间隔,以便确定何时可以正确地将分区标记为 done。 其次,您需要定义 idle-time,它决定了分区没有新数据需要多长时间
湖仓相关场景---持续更新
一.场景问题总结 1.CDC的乱序问题 如下图中左侧所示,数据分片更新时产生先+D 后+I消息,由于数据分库分表导致先输出+I 后输出+D,数据产生乱序。 解决方案:基于Watermark + Sta
Paimon优化---持续更新
进阶优化 1.写入性能 Paimon的写入性能与检查点密切相关,因此需要更大的写入吞吐量: Ø 增加检查点间隔,或者仅使用批处理模式。 Ø 增加写入缓冲区大小。 Ø 启用写缓冲区溢出。 Ø 如果您使用
DorisSink源码解析-1
先说结论 0. Doris两阶段提交的基本步骤 第一阶段(Prepare) : URL:http://hostPort/api/db/table/_stream_load(不带 _2pc 后缀)。 作
DorisSink源码解析-2
上一章节说到DorisWriter,这回说一下里面最核心的,真正干活的人---DorisStreamLoad 3.DorisStreamLoad--核心 (1) 写入流程源码分析 三个阶段:数据写入触
下一页
个人成就
文章被点赞
31
文章被阅读
5,625
掘力值
746
关注了
2
关注者
8
收藏集
0
关注标签
36
加入于
2022-10-15