数据湖三剑客:Delta Lake, Hudi 与Iceberg | 青训营笔记
这是我参与「第四届青训营」笔记创作活动的的第3天。
发展历史
数据湖发展阶段:Hadoop
基石:HDFS
hdfs 的好坏:
坏处:数据沼泽
数据湖发展阶段:Hive
问题:
湖仓一体
数据仓库:什么是数据仓库?
数据湖和数据仓库的优缺点:
业界三大数据湖: hudi, icebreg, delta lake
总结
数据湖核心技术
如何设计一个简单的数据湖?
场景1:
场景2:
设计要点:Time Travel:
场景3
这时,需要引入Transaction:事务以保证ACID特性。