这是我参与「第四届青训营」笔记创作活动的的第14天！

前言

内容包括数据湖基本概念和发展历史、数据湖核心技术、数据湖三剑客特点。

数据湖基本概念和发展历史

数据湖最开始的概念---分布式存储HDFS

好处：同一公司/组织可以使用共享存储；数据访问方便，灵活性高

坏处：没有记录文件的schema、难以得知数据集包含哪些文件，是通过什么样的分区组织的、如果多个程序都在修改这个数据集，其他程序难以配合做修改

数据湖的演进---Hive Metastore（元数据存入mysql中）

对数据湖中的数据集进行集中定义

问题：静态表------读取方便，有写操作，不同用户读取的文件可能不同(读写冲突、写写冲突) 对于schema数据，只能在尾列后面增加列而不能删除或修改列------------重写一张表（支持更多样的schema变更）

数据仓库将数据从数据源提取和转换，加载到目的地数据仓库存储+计算不分离数据仓库严格控制写入数据的schema 3. 湖仓一体

结合数据湖和数据仓库的优势

将数据仓库中对于数据的严格管理直接实现到了低成本的分布式存储上

特点：ACID、Schema管理、存储计算分离、支持多种计算引擎和文件格式

更新数据，新数据和旧数据同时跑一下训练

解决多用户的写写冲突、读写冲突

写入流程：先写parquet数据文件、写入json文件（hash,rename；rename成功视为commit）

从用户可见性入手确保原子性，解决读写冲突

同时update/delete和Insert才会产生冲突

Update写入流程：

乐观锁把文件全部落盘，进入写json阶段

版本号未增加，直接写新版本；否则看新版本更新的分区和自己更新的分区是否一样，不一样直接写新版本，否则重新update操作

删除列（手机号）

Data中没有，metadata中有：ADD

Data中有，metadata中没有：DROP

Data和metadata中都有同一ID，但是name不同：RENAME

如果都有同一列名，而ID不同：先删后加

数据湖是一个不断更新的概念，最新发展状态是湖仓一体，重点了解目前业界三大数据湖的特点和代表性技术。