这是我参与「第四届青训营 」笔记创作活动的的第 5 天
1. 发展历史
数据湖发展阶段——Hadoop
-
使用目录来区分不同的数据集
-
好处
- 统一公司/组织可以使用共享存储
- 数据访问方便,灵活性高
-
坏处
- 没有记录文件的 schema (包括列名、列类型),经常是用 Schema on Query 的方式
- 难以得知数据集包含了哪些文件,是通过怎样的分区组织的
- 如果多个程序都在修改这个数据集(修改数据、修改表结构),其他程序难以配合做修改
数据湖发展阶段——Hive
-
对数据湖中的数据进行集中“定义”
- 数据湖中存在了那些数据集
- 他们都存储在什么目录
- 数据集的 schema 是什么样子的
- 数据集有哪些分区,每个分区的目录是什么
-
如果这张 hive 表是静态的,没有新增写入,则所有读取方都能很便捷的使用
数据湖发展阶段——湖仓一体
-
数据仓库
- 数据仓库将数据从数据源提取和转换,加载到目的地
- 数据仓库存储 + 计算不分离
- 数据仓库严格控制写入数据的 schema
| - | 数据仓库 | 数据湖(阶段1) |
|---|---|---|
| 成本 | 高 | 低 |
| 存储计算分离 | 否 | 是 |
| ACID | 是 | 否 |
湖仓一体(数据湖现状):
-
结合了数据湖和数据仓库的优势
-
将数据仓库中对于数据的严格管理直接实现到了低成本的分布式存储之上
-
key feature
- Transaction ACID
- Schema 管理
- 存储计算分离
- 支持多种计算引擎和文件格式
关于“数据湖”
- 数据相关概念比较新,一直处于演进当中
- 一开始是 HDFS,裸 pb、txt 日志等,叫数据湖(管不动了就叫数据沼泽)
- 后来出现了 Iceberg、Hudi、Delta Lake 了,数据湖概念就基本等于这些产品了
- 也更贴近于 Lakehouse 的概念
2. 核心技术
写入数据湖时:
- 按照每条数据的 date 进行分区
- 额外使用 metadata 文件记录表信息
Time travel
要点:
- 每次写入都生成一个新的元数据文件,记录变更
- 分区数据在 Update 时,不要删除旧数据,保证新旧共存
- 元数据中存储具体的文件路径,而不仅仅是分区文件夹
操作:
- 每一次写入操作,创建一个新的 json 文件,以递增版本号命名,记录本次新增/删除文件
- 每当产生 N 个 json,做一次聚合,记录完整的分区文件信息
- 用 checkpoint 记录上次做聚合的版本号
Transaction
ACID,是指数据库再写入或更新资料的过程中,为保证事务是正确可靠的,所必须具备的四个特性:
- Atomicity 原子性
- Consistency 一致性
- Isolation 事务隔离
- Durability 持久性
数据湖中的 ACID
- Atomicity 原子性 - 本次写入要么对用户可见,要么不可见(需要设计)
- Consistency 一致性 - 输入是什么,落盘的就是什么(由计算引擎保证)
- Isolation 事务隔离 - 正确解决读写冲突和写写冲突(需要设计)
- Durability 持久性 - 落完数据后,即便服务器重启结果不变(由存储引擎保证)
原子性
-
写入流程
- 写入 parquet 数据文件
- 写入 json 元数据文件
-
如何确保原子性(从用户可见性入手)
- 用户只会读义版本号数字命名的 json 文件,每次都读取到最大的版本号作为数据集的现状
- 新的写入写完 parquet 后开始写 json 文件,使用 hash 值对 json 文件命名,如 a2fs4hfg8ee.json
- 直到 json 文件内容写入完毕,利用 hdfs 的 renameIfAbsert 能力将 a2fs4hfg8ee.json 替换为 0000006.json,到此位置 commit 完成,新的读取将会以 0000006.json 作为最新版本
-
读写冲突已解决
- 新的写入除非已经 commit,否则用户读不到
- 用户正在读的分区,被另一个写入进行更新,数据不会进行替换,而是共存
事务隔离
| 写写冲突 | Insert | Update/Delete |
|---|---|---|
| Insert | can not conflict | |
| Update/Delete | can conflict | can conflict |
Update 写入流程:
-
从最新的版本中,获取需要 update 的分区
-
乐观锁先把该写入的文件全落盘,然后进入写 json 阶段
-
分几种情况
-
发现版本号和一开始没区别,直接写新版本
-
发现版本号增加了,看看新增的这些版本有没有更新我要更新的分区?
- 没有,直接写新的版本
- 有,两者都更新了同一分区,得重新 update 了
-
Schema Evolution
Add/drop/Rename
- 用户并不直接读取 parquet 文件本身,而是通过数据湖接口读取,如
Dataset<Row> ds = simpleDataLake.read(mytable).option(date=2020-01-01) - 数据湖内部读取应该读的是 parquet,并在 schema 上做进一步处理
ID 将 data 和 metadata 的列名做一一对应
-
唯一确定的 ID。新增列赋予新的 ID。删列 ID 不复用
-
写入数据时,ID 也写入数据文件
-
读取数据时,用 ID 做映射,如果
- Data 中没有,metadata 中有:ADD
- Data 中有,metadata 中没有:DROP
- Data 和 metadata 中都有同一 ID,但是 name 不同:RENAME
- 都有同一列名,而 ID 不同:先 DROP 后 ADD
3. 各有所长
Iceberg 工作重点
-
用户体验
- Schema evolution
- Partition evolution
- Hidden partition
- Time Travel
- Version Rollback
-
性能
- 快速 file plan
- 更多的 filter 方式
-
可靠性
ACID Transaction
-
完全开源,由 Apache 孵化开发
Well-desgned Metadata Layer
- Metadata files 定义了表结构,存储了 snapshot 信息,分区列信息等
- Manifest lists 存储了一个 snapshot 中所有 manifest 的信息
- Manifest 存储了一些 data files 的信息
- Data files 就是具体数据文件
Data file Filter
一些有助于 filter 的数据被层层记录,比如:
- Manifest file 记录了每个 data file 的分区范围
- Manifest list 记录了每个 manifest file 的分区范围,分区可以被快速定位!可以做 manifest file 级别裁剪
- Manifest file 记录了每个 data file 每一列的最大值,最小值可以通过其他的列(UserId)做 data file 级别裁剪
Hidden Partition
-
传统的分区方式
- 数据中包含了 date 列,则按照 date 分区;如果希望按照 hour 分区,则需要新增 hour 列
-
Iceberg 的分区方式
-
数据中包含 timestamp 列,设置好 partition transform 方式
- 设置为 date 时,iceberg 帮你转化为 date 分区
- 设置为 hour 时,iceberg 帮你转化为 hour 分区
- Iceberg 记录了这层转化关系,并且按你的需要进行 partition evolution
-
Hudi
Hadoop Upsert Delete and Incremental
Hudi 工作重点:
- Timeline service:Hudi 管理 transaction 的方式
- Hudi Table Type:Copy on Write / Merge on Read
- 高效的 Upserts:update or insert
- 索引表:快速定位一条数据的位置
- Streaming Ingestion Service
- 完全开源,由 Apache 孵化
Timeline Service & Upsert & Incremental
- Timeline Service:记录的信息类似于 metadata
- Upsert :每一条样本都有一个主题 PK,当 Upsert 一条数据时,如果现有数据中有这个 PK,则 uopdate 这条数据,否则直接 insert 这条数据
- Incremental:某个时间点后新增的数据
Copy on Write
Merge on Read
Delta Lake 工作重点
- ACID Transaction
- Schema 校验(不是 evolution)
- 流批一体
- Time Travel
- Upsert/Delete
- Z-Order 优化
- 只开源一部分,由 Databricks 自己主导开源,Z-order 等优化的实现为开源
4. 总结场景
三个数据湖的异同
技术选型
短期来看:每个项目都有一些属于自己的功能
- 如果强需求 Upsert,也许 Hudi 是最好的选择
- 如果希望可扩展性强,那么设计优良的 Iceberg 是最好的选择
- 如果希望用上 Z-Order 等优化,那么掏钱买 Databricks 的企业版 Delta 是不二之选
长期来看:数据湖取代 Hive,称为 HDFS 上的表格是标准是必然的,在选择之前问自己四个问题:
- 我需要的 feature 在哪个数据湖上是最稳定的
- 哪一个数据湖能够用简单的接入方式(SQL)用上完善的功能
- 哪一个数据湖有机酸引擎侧的支持和社区的支持
- 哪一个数据湖的版本管理做的好,最鲁棒