iceberg hudi 并发写入

103 阅读1分钟

hudi

  • occ(乐观重试)只是用了这个思想
  • mvcc + timeline(隔离读写并发 + 异步表服务)
  • 文件组级别的加锁(并发写入,在更新文件时需要获取锁,否则会滚)

并发写局限性:

  • 如果任务写入文件超过1gb,那么回滚的成本巨大(删除数据)

优化:

  • Hudi为并发写入提供了早期冲突检测模式。在这种模式下,在实际写入文件之前,会在临时文件夹中创建轻量级标记文件。这些标记文件作为冲突检查的初步步骤。有关早期冲突检测的设计和实现的详细解释,请参考此社区演讲(www.youtube.com/watch?v=sgf…

iceberg