首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Hudi
大大大大晴天
创建于2026-03-15
订阅专栏
Hudi技术分享与实践
暂无订阅
共9篇文章
创建于2026-03-15
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Hudi 生产问题排障-乱序Upsert入湖数据丢失
对Flink实时写入Hudi表时出现的数据丢失问题,排查发现根源在于Hudi对乱序数据的处理缺陷,凸显了深入理解Hudi合并机制及严格测试乱序场景的重要性。
Flink-Hudi技术实践:Upsert场景开发实践
本文深入解析Hudi-Upsert模式在Flink实时场景下的应用实践,通过对比Upsert与Insert模式的特点,为不同业务场景提供技术选型参考,助力构建高效实时数据湖架构。
Flink-Hudi技术实践:Insert场景开发实践
本文围绕 Flink 写入 Hudi MOR 表的 Insert模式,系统介绍了其技术特性、适用场景以及关键的 Clustering 配置实践,为构建高效稳定的实时数据湖提供了实践指导。
Hudi 生产问题排障-Hudi表数据查询字段丢失
本文分析了生产环境中使用Kyuubi-Trino查询Hudi MOR表时出现字段数据缺失的问题,从现象到源码,层层分析定位根因并给出解决方案。
Flink生产问题排障-Failed to deserialize consumer record
基于Canal+Kafka+Flink+Hudi的实时数据入湖链路出现Flink作业频繁重启故障,表现为Kafka偏移量卡住、反序列化异常和checkpoint超时问题,介绍由表及里的根因排查定位过程
Flink生产问题排障-Hudi UnsupportOperationException
摘要:本文分析了Flink+Hudi实时数据湖建设中因多引擎配置不一致引发的异常问题。此次故障凸显了多引擎环境下配置统一的重要性,建议加强参数管理、测试覆盖和跨引擎协调。
Flink生产问题排障-Hudi DuplicateFileIdException
基于Flink+Hudi的一次Duplicate fileId xxxx异常,引发Hudi 底层组件缺陷,通过层层排查定位根因并解决。
Hudi生产问题排障-insert overwrite 路径不存在
Yarn资源抢占导致Executor启动延迟超过Hudi版本保留周期,Driver持有的过期元数据引发Task读取失败,最终导致Hive结果表的路径文件不存在。文章从问题出发分析根因,并给出解决方案。
Flink-Hudi生产问题排障-xxx.parquet is not a Parquet file
本文分析了Flink+Hudi实时数据湖架构中出现的0字节Parquet文件问题,从问题现象入手,结合FLink+Hudi运行原理,完成问题排查与根因分析,并给出修复方案与总结。