这是我参与「第四届青训营」笔记创作活动的的第8天。

写在前面

第一次解除数据湖的概念，从技术和业务需要的角度去认识这个新的应用概念，包括湖仓一体的架构，数据仓库到数据湖的沿革等。

笔记正文

Transaction ACID

要求
- 1. 按照date分区，schema是userId, date, event, phone
- 1. 每天写入新数据
- 1. 需要列存格式
文件结构
- 1. 按照每条数据date分区
- 1. 使用metadata文件记录表信息
Time Travel
- 1. 每次写入生成一个新的元数据文件，记录变更
  - 每次写入创建一个json文件以递增版本号命名
  - N个json文件聚合，记录完整的分区文件信息
  - checkpoint记录上次做聚合的版本号
- 1. 分区数据Update时不删除旧数据，保证新旧共存
- 1. 元数据中存储具体的文件路径而不只是分区文件夹
Transaction
- ACID in data lake
  - A原子性: 本次写入要么对用户可见、要不不可见（设计）
  - C一致性: 输入什么落盘什么（计算引擎保证）
  - I事务隔离：正确解决读写冲突与写写冲突
  - D持久性：落盘数据后重启服务器数据结果不变
Schema Evolution
- 用户不直接读取parquet文件本身
- 数据湖内部读取后在schema上进行处理
- ID将data和metadata进行一一对应

Hadoop Upsert Delete and Incremental

短期
- Hudi满足Upserts强需求
- 可扩展性Iceberg更优
- Z-order优化最需要Delta
长期——重要的问题
- 需要的feature是在哪个数据湖上最稳定
- 那个数据湖能用最简单的接入（SQL）实现最完善的功能
- 哪个数据湖有计算引擎测的支持和社区支持
- 哪个数据湖版本管理最好，最鲁棒