Hudi学习笔记
二、hudi的查询类型
前言
hudi中有三种数据查询方式,Snapshot Queries(快照查询)、Incremental Queries (增量查询)、Read Optimized Queries (优化读),下面简单介绍三种方式
一、三种数据查询方式?
1.Snapshot Queries :快照查询,总是查询最新的提交或者压缩后的数据,在 copy on write表中,10:07分查询的数据相当于10:05分的快照数据(增量数据要到10:10分commit),在 merge on read表中,接近准实时查询,只要10:07分做了commit,那么就是10:05+增量(06,07)数据。
2.Incremental Queries;z:增量查询,查询只看到最新的提交或者压缩(compact)的数据。
3.Read Optimized Queries(优化读):查询最后一次提交或者压缩之后的数据,只提供列式存储数据文件,merge on read中,即使增量日志提交,但是没有压缩成列式存储的话,依然不会被查询。
二、对比
1.数据延迟:快照低(准实时),优化读高
2.查询延迟:快照延迟高(需要合并列式数据+行增量数据、日志文件),优化读延迟低(只有列式数据文件)
三、支撑的表类型
copy on write: Snapshot Queries+Incremental Queries merge on read: Snapshot Queries+Incremental Queries+Read Optimized Queries 可以看到,merge on read支持优化读,而copy on write不支持,因为对于copy on write来说,Snapshot Queries,Read Optimized Queries其实是一样的,都只能读取列数据的文件。