数据湖三剑客-Delta Lake Hudi 与Iceberg | 青训营笔记

125 阅读1分钟

数据湖三剑客:Delta Lake, Hudi 与Iceberg | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第3天。

发展历史

数据湖发展阶段:Hadoop

基石:HDFS

hdfs 的好坏:

image.png

坏处:数据沼泽

数据湖发展阶段:Hive

问题:

image.png

湖仓一体

数据仓库:什么是数据仓库?

image.png

数据湖和数据仓库的优缺点:

image.png

image.png

业界三大数据湖: hudi, icebreg, delta lake

image.png

image.png

image.png

总结

image.png

数据湖核心技术

如何设计一个简单的数据湖?

场景1:

image.png

场景2:

image.png

设计要点:Time Travel:

image.png

场景3

image.png

这时,需要引入Transaction:事务以保证ACID特性。

image.png

数据湖中的ACID

image.png