2022 开源大数据观察:数据湖与 LakeHouse 依然炙手可热

189 阅读3分钟

近几年,数据技术快速发展,技术栈逐渐成熟,从新一代数据源体系到数据处理体系,再到数据分析、AI 算法体系,数据技术逐步相互融合、相互支持形成有机整体。OLAP、数据湖、数据集成、DataOps、MLOps 等领域变得更加火热。未来,大数据技术会沿着异构计算、批流融合、云化、兼容AI、内存计算等方向持续更迭。

我们邀请了三名国内开源大数据领域的专家,为各位开发者解读开源大数据的发展和流行趋势。

本文选自《2022中国开源开发者报告:前沿开源技术领域解读》,原文作者:马进。

2022 年,数据湖与 LakeHouse 依然是炙手可热的话题。一方面,在 Apache Iceberg、Apache Hudi、Delta 等知名开源项目的带动下,国内的一些基础软件公司也开始在数据湖开源领域积极布局,代表有网易数帆开源的湖仓管理系统 Arctic,阿里云开源的流式数仓 Flink Tablestore;另一方面,一些传统架构的开源数仓软件,以及闭源的数据分析引擎,也开始积极拥抱开放的数据湖格式,标志性事件如 Snowfake 可以对接 Delta 和 Iceberg,Doris 系的开源数仓可以查询 Iceberg 数据。

image.png 在众多开源项目与头部企业的带动下,行业和市场相比去年对 LakeHouse 的价值认知有了长足进步。

目前,用户切入 LakeHouse 主要有两点:一是数据湖上云,公有云的对象存储与私有化的 Hadoop 在一些功能上有较大不同,比如 list 和 rename 接口的性能缺陷,导致用户在把围绕 Hadoop 构建的数仓体系迁往云端时需要应对各种问题,而以 Iceberg 为代表的新型表格式在使用上天然不依赖这些接口,并且提供了 ACID、模式演进等高阶特性,为用户提供了更好的上云方案;二是数据处理的流批一体,新型数据湖格式的快照机制对流更加友好,可以将数据湖拓展到更多流计算场景,甚至演进到流式湖仓的场景,实现实时数仓和离线数仓在湖仓上的统一。

但需要承认的是,LakeHouse 这项技术还没有瓜熟蒂落,尤其在流批一体方面,依然有很多想象空间。在 Gartner 技术成熟度曲线中,LakeHouse 处于期望膨胀期的临界点,距离主流市场采纳还需要 2-5 年的时间。得益于数据湖天然的体量和成本优势,可以预见当 LakeHouse 成为标准技术方案时,它将给企业的数字化转型带来极具意义的变革。


想要了解更多前沿开源技术领域解读,请访问《2022中国开源开发者报告》