iceberg、hudi 这些数据湖工具其实相当于hdfs,定义了一种存储格式,可以接收批的更新删除,也能接收流的更新删除。然后再结合上层的查询引擎如spark,就实现了流批数据的查询。如果使用了hive的metadata,甚至语法什么都和hive一样,使数仓人员无缝切换,sql都不用改。
3