全球 Lakehouse 架构的部署正在加速普及。然而,一个更深层的范式转变正在悄然发生:企业数据基础设施的服务对象,正在从人向 AI 迁移。
当 AI Agents 开始大规模嵌入企业业务流程,承担分析、决策乃至执行任务时,传统的数据平台架构是否还能胜任?
时至今日,许多企业已经完成了 Lakehouse 的架构升级,却在 AI 规模化落地阶段遭遇了新的瓶颈:数据维度和数据量足够多,但无法支撑 Agent 的高并发探索式查询、无法保障决策数据的准确性、也无法在多 Agent 协作时维持系统的稳定与可治理性。
本文将从工程实践视角,探讨在 AI 时代,大规模 Lakehouse 平台设计面临的困境。
一、规模化之痛:当架构图遇见生产环境
在数据工程社区中,关于 Lakehouse 的讨论大多从 Bronze / Silver / Gold 三层 Medallion 架构切入。这套框架清晰、通用,但当平台规模扩展至每日数十 TB 以上的数据摄入、对接数百个以上数据源、服务数十个以上数据团队时,三层分层仅仅是起点,而不是答案。
我们观察到在规模化阶段,频繁出现了这三类系统性挑战:
并发压力引发成本失控。 BI 报表、Ad-hoc 分析与 AI 模型训练任务同时并发执行时,计算资源的竞争将导致任务排队、查询超时。更重要的是,当 AI Agents 发起多轮探索式查询时,传统架构下的并发上限往往成为业务瓶颈。不少团队反映,规模化后每月计算账单以数倍速度增长,但业务价值产出并未等比提升。
Schema 漂移成为日常故障源。 在多团队协作的大型数据平台中,上游字段变更往往在未经协调的情况下传导至下游管道,导致看板数据异常、模型特征失效。当“数据可不可信”成为团队间最大的协作摩擦点,平台本身便成了业务推进的阻力。
治理边界模糊带来决策风险。 在金融数据和 PII 场景中,数据访问权限、血缘追踪、敏感字段脱敏,这些治理需求无法靠文档规范解决,当 AI Agents 开始自主访问数据时,治理的颗粒度要求将进一步提升。
二、重新理解数据基础设施的角色
面对以上挑战,我们认为有两个思维框架值得重建。
第一,存储是系统本身,而非容器。 在现代 Lakehouse 架构下,Apache Iceberg、Delta Lake 等开放表格式已内置 ACID 事务、时间旅行、Schema 演进等系统级能力。数据平台的稳定性根本上取决于存储状态的可控性,包括分区策略、小文件合并、快照版本管理,这些存储层行为将直接影响上层所有分析任务的执行效率。
第二,数据基础设施的服务对象正在改变。 传统数据平台是为人设计的:数据分析师、业务运营人员通过 BI 工具、SQL 查询与数据交互。但在 AI Agent 大量嵌入业务流程之后,数据基础设施需要同时支撑 Agent 的高并发自主查询、多轮上下文记忆、以及可解释的决策溯源。
这不是仅仅是工具的升级,也是架构范式的迁移:从「数据平台」到「AI 决策基础设施」。
领先企业的做法,是在平台设计早期就将这两个维度纳入考量,而不是等到 AI 落地受阻时再进行补救式重构。
三、面向 AI 时代的 Lakehouse 架构实践
基于对金融、互联网、智能制造等行业数十家大型数据平台的观察,规模化 Lakehouse 向 AI 就绪演进,首先需要解决的是查询基座的能力升级。
AI Agents 的查询模式与人类分析师截然不同,比如更高的并发频次、更短的响应时延、更复杂的多轮探索路径。数据基座需要在保持开放存储格式(Iceberg / Delta Lake)兼容性的前提下,提供原生的向量化查询加速和严格的资源隔离,确保 BI 负载与 Agent 负载互不干扰。
我们也观察到,领先企业正在重新审视数据准确性在 AI 场景下的含义,不只是数据质量问题,而是 AI 决策可信度的前提。语义一致性管理、数据血缘追踪、访问权限的细粒度控制,正在成为平台治理的新标配。
在这一方向上,镜舟科技深度参与构建的 StarRocks,作为 Linux Foundation 旗下开源 Lakehouse 引擎,正持续强化其在高并发 AI 查询场景下的核心能力。StarRocks 已被全球超过 600 家头部企业选择,覆盖金融、零售、制造等核心行业,包括中国民生银行、腾讯、理想汽车、沃尔玛、Pinterest 等。
面向 AI 时代,镜舟正在将 StarRocks 的数据基座能力与企业 AI 场景深度结合,帮助企业在数据可信、查询高效的基础上,探索更完整的智能决策路径。
结语
规模化的 Lakehouse 平台,考验的从来不只是架构师对分层模式的理解,而是在 AI 浪潮下对“数据基础设施该服务于谁”这一根本问题的判断。
当 AI Agents 逐渐成为企业业务决策的重要参与者,数据平台的价值不再只是“存得住、查得快”,而是能否成为 Agent 可信赖、可追溯的决策底座。这是一道正在加速到来的命题,也是当下数据架构演进最值得认真思考的方向。