这是我参与「第四届青训营 」笔记创作活动的的第11天
0x00 数据湖发展历史
0.1 发展阶段1-Hadoop
-
数据湖最开始的概念——分布式存储HDFS
-
使用目录来区分不同的数据集
- /douyin
- /20220623
- /20220624
- /toutiao
- /douyin
-
优点:
- 同一公司/组织可以使用共享存储
- 数据访问方便,灵活性高
-
缺点:(数据沼泽)
- 没有记录文件的schema(包括列名、列类型),经常使用Schema on Query的方式
- 难以得知数据集包含了那些文件,是通过什么样的分区组织的
- 如果多个程序都在修改这个数据集(修改数据、修改表结构)其他程序难以配合做修改
0.2 发展阶段2-Hive
- 数据湖的演进—Hive Metastore
- 对数据湖中的数据集进行集中”定义”
- 数据湖中存在了哪些数据集
- 它们都存储在什么目录
- 数据集的schema是什么样子的
- 数据集有哪些分区,每个分区的目录是什么
- 缺点:
- 两个用户同时修改同一文件时数据出错
- Hive允许我们仅在最后一列后方添加列
0.3 发展阶段3-湖仓一体
- 数据仓库将数据从数据源提取和转换,加载到目的地
- 数据仓库存储+计算不分离
- 数据仓库严格控制写入数据的schema
湖仓一体 结合了数据湖和数据仓库各自的优势,将数据仓库中对于数据的严格管理直接实现到了低成本的分布式存储之上。
0.4 业界三大数据湖
0x01 湖仓一体核心技术
1.1 文件结构
写入数据湖时: 1.按照每条数据的date进行分区 2.额外使用metadata文件记录表信息
1.2 Time travel
- 每次写入都生成一个新的元数据文件,记录变更
- 分区数据在Update时,不要删除旧数据,保证新旧共存
- 元数据中存储具体的文件路径,而不仅仅是分区文件夹
1.3 Transaction
数据湖中的ACID:
- Atomicity:原子性 - 本次写入要么对用户可见,要么不可见(需要设计)
- Consistency:一致性 - 输入是什么,落盘的就是什么(由计算|擎保证)
- Isolation:事务隔离 - 正确解决读写冲突和写写冲突(需要设计)
- Durability:持久性 - 落完数据后,即便服务器重启结果不变(由存储引擎保证)
1.4 Schema Evolution
Add/Drop/Rename
- 用户并不直接读取parquet文件本身,而是通过数据湖接口读取,如Dataset< Row>ds= simpleDataLake.read(mytable).option(date=2020-01-01)
- 数据湖内部会读取应该读的parquet,并在schema上做进一步处理
0x02 湖仓一体项目对比
2.1 Iceberg
- 用户体验
- Schema evolution
- Partition evolution
- Hidden partition
- Time Travel
- Version Rollback
- 性能
- 快速file plan
- 更多的filter方式
- 可靠性
- ACID Transaction
2.1.1 Well-designed Metadata Layer
- Metadata files定义了表结构,存储snapshot信息,分区列信息等
- Manifest lists存储了一个snapshot中所有manifest的信息
- Manifests存储了一些data files的信息Data files就是具体的数据文件
2.1.2 Data File Filter
- Manifest file记录了每个data file的分区范围
- Manifest list记录了每个manifest file的分区范围,分区可以被快速定位。可以做manifest list级别裁剪。
- Manifest file记录了每个data file每一列的最大值,最小值可以通过其他的列(Userld)做data file级别裁剪。
2.1.3 Hidden Partition
Iceberg的分区方式:
- 数据中包含timestamp列,设置partition transform方式
- 设置为date时,iceberg帮你转化为date分区
- 设置为hour时,iceberg帮你转化为hour分区
- Iceberg记录了这层转化关系,并且按你的需要进行partition evolution
2.2 Hudi
Hudi工作重点:
- Timeline service: Hudi管理transaction的方式
- Hudi Table Type: Copy on Write Merge on Read
- 高效的Upserts: update or insert
- 索引表:快速定位一条数据的位置
- Streaming Ingestion Service
- 完全开源,由Apache孵化
2.2.1 Timeline Serivce Upsert Incremental
2.2.2 Copy On Write
2.2.3 Merge On Read
2.3 Delta DeltaLake
只开源了一部分,由Databricks自己主导开发,Z-order等优化的实现未开源
- ACID Transaction
- Schema校验(不是evolution)
- 流批一体
- Time Travel
- Upsert/Delete
- Z-Order优化