这是我参与「第四届青训营」笔记创作活动的第16天

发展历史

数据湖最开始的概念——分布式存储HDFS使用目录来区分不同的数据集。

好处:同─公司/组织可以使用共享存储心数据访问方便，灵活性高

坏处: 1.没有记录文件的schema(包括列名、列类型)，经常使用Schema on Query的方式 2.难以得知数据集包含了那些文件，是通过什么样的分区组织的 3.如果多个程序都在修改这个数据集（修改数据、修改表结构)，其他程序难以配合做修改

数据湖的演进——Hive Metastore动对数据湖中的数据集进行集中“定义”

数据湖中存在了哪些数据集；它们都存储在什么目录；数据集的schema是什么样子的；数据集有哪些分区，每个分区的目录是什么；

湖仓一体（数据湖的现状)∶的结合了数据湖和数据仓库的优势将数据仓库中对于数据的严格管理直接实现到了低成本的分布式存储之上

Key Features: Transaction ACID Schema管理存储计算分离动支持多种计算引擎和文件格式

数据湖中的ACID:

用户体验