DataLake | 青训营笔记这是我参与「第四届青训营」笔记创作活动的第19天数据湖数据仓库数据库湖仓一体

这是我参与「第四届青训营」笔记创作活动的第19天

数据湖概念

数据库是一个集中存储各类结构化和非结构化数据的大型数据仓库，它可以存储来自多个数据源、多种数据类型的原始数据，数据无需经过结构化处理，就能进行存储，处理，分析和传输。

首先，这三者是平行的三个概念，也就是说并不存在(或不一定存在)数据仓库或者数据湖是依赖于数据库的情况。他们各自有各自存储引擎的实现，并且他们面向的业务场景和功能效率都各不相同

数据湖最开始的概念——分布式存储HDFS使用目录来区分不同的数据集

/douyin /20220623 /20220624/toutiao

好处:

坏处:

数据湖的演进——Hive Metastore

对数据湖中的数据集进行集中“定义”：

hive的架构存在两个重大的问题：

读写同时进行时，会出现脏数据甚至错误
hive为了性能等问题，不允许删除某个元数据(可以简单当作在数据库中删除某列)，想要完成该需求，只能读出除开该元数据的其他数据，来然后写到另一张新表中，极大的消耗性能和存储空间

湖仓一体（数据湖的现状)︰

业界内三大湖仓一体的框架：

Hudi，Iceberg，Delta Lake

简单来看他的存储格式与 mongodb 十分相似，这里就不多做赘述，具体聊聊读写相关的问题。

这种方式的写入和更新会占据很大的空间，即便只修改一条数据，都需要将整个分区重新拷贝更新并储存。

这个就是写入发现更新时，就会像日志一样写在另一个文件中，不再是将整个分区拷贝，然后更新存储。这就像是数据库备份的增量备份类似的原理，读的时候会将分区+文件一起读，然后根据优先级进行合并。

这样确实增加了部分读的压力，但是相比于减少的写的压力，就不值一提。

短期来看:每个项目都有一些属于自己的功能:

长期来看:数据湖取代Hive，成为HDFS上的表格式标准是必然的，在选择之前问自己四个问题