规模化AI的秘诀：不在于模型多好，而在于基础多简企业AI项目失败主因是数据架构而非模型。AI部署因数据层碎片化而复杂且成

企业AI项目失败主因是数据架构而非模型。AI部署因数据层碎片化而复杂且成本高昂。文章强调需统一数据架构（如PostgreSQL兼容分布式数据库），以简化AI堆栈，加速开发，提高数据质量和治理。AI成功的关键在于智能基础设施。

译自：Why the secret to scaling AI isn’t a better model, it's a simpler foundation

作者：Ajay Khanna

MIT NANDA 项目最近的一项研究强调了企业人工智能应用中的一个持续挑战。尽管进行了大量投资和试验，但大约 95% 的企业人工智能工作未能提供清晰、可衡量的价值。模型和代理主导着当前的人工智能讨论，但现实世界中人工智能应用的真正成功或失败取决于其底层数据架构。

开发人员可以使用 LangChain、CrewAI 或 LangGraph 等框架在数小时内启动代理、运行实验并构建智能工作流。尽管创建人工智能驱动的体验变得更容易，但在生产环境中部署和扩展它们仍然异常复杂。限制不是人工智能工具本身，而是它们所依赖的信息。数据基础是最薄弱的环节。

“限制不是人工智能工具本身，而是它们所依赖的信息。数据基础是最薄弱的环节。”

要构建一个“生产级”人工智能应用程序，你通常需要组装一个由数据库、向量存储、缓存、管道和索引系统组成的复杂堆栈。大多数开发人员直到尝试从笔记本电脑原型迁移到生产部署时，才意识到这一层是多么脆弱。有各种各样的“人工智能原生”向量存储可供选择；然而，这并不是你唯一应该担心的数据设置。

代理应用通常很复杂，依赖于协同工作的多样化组件堆栈。这通常包括用于结构化数据的传统数据库、用于语义搜索的向量数据库、用于管理关系和内存的图存储，以及用于优化成本和用户体验的缓存层。你还需要构建文档索引管道、一个检索增强生成 (RAG) 系统、底层模型推理基础设施，以及可观测性和监控系统。

当每个组件都作为单独的系统运行时，它会在部署、扩展、安全和监控方面增加操作复杂性。这种碎片化的方法在开发人员的笔记本电脑上可行，但在生产流量下就会崩溃，导致数据库瓶颈、管道无法扩展、会话之间内存消失、可观测性碎片化以及基础设施成本飙升。团队将更多时间花在管理这种基础设施蔓延上，而不是改进人工智能体验。

人工智能计划的长期成功取决于企业在引入扩展模型或工具之前加强其数据层。改进操作数据的组织、共享和实时交付方式对于确保人工智能系统在日常运营中有效至关重要。当信息分散在太多系统中时，组织将面临相互冲突的输出、增加的风险敞口以及对人工智能驱动决策的信心下降。从一开始就解决这个挑战通常需要重新架构企业数据的规模化管理方式。

统一数据架构的必要性

代理系统需要持久内存，使其能够将新信息与过去的交互连接起来，并提供用户期望的上下文。这些数据必须可搜索、可索引、可实时检索，并且必须能够扩展。当每个新功能都需要另一个专门的数据库时，数据层就变成了无声的生产力杀手，减缓开发速度，使操作复杂化，并推高维护成本。

数据库蔓延的挑战是巨大的，因为典型的人工智能堆栈会组装多个专用系统，包括用于应用程序数据的传统数据库、用于嵌入的向量存储、用于关系的图数据库、用于推理优化的缓存数据库以及用于文档检索的搜索引擎。

每个组件都需要调优和监控专业知识，引入了众多故障点。当出现问题时，调试会变成一个复杂的、多层次的调查，就像一个迷宫，需要检查模型查询、数据库状态、向量搜索质量和缓存行为。最终，这种基础设施复杂性是开发人员所需速度和灵活性的主要障碍。统一的数据架构通过提供一种单一、一致的方式来访问和管理跨操作、分析和人工智能工作负载的数据，有助于扭转这一趋势。

另一个挑战是弥合人工智能实验与生产之间的可扩展性差距。人工智能团队快速迭代，不断测试新的提示、模型和管道。然而，在生产环境中安全部署这些更改是困难的。

基础设施必须支持高可用性、多区域部署、混合/私有云设置、不可预测负载下的可扩展性以及不间断的持续实验。如果每次新实验都需要重建基础设施，团队就会失去动力。

要实现本地构建、随处部署和轻松扩展的简单目标，需要对数据系统的结构进行根本性反思。安全和治理可以统一应用，而不是碎片化。这种统一方法使数据库管理员 (DBA) 和站点可靠性工程师 (SRE) 能够从管理单个系统转变为运营共享的全球数据平台，使其作为单一、内聚的基础。

简化数据基础，加速上市时间

统一方法以数据融合为核心：将多种数据访问模式组合到一个可扩展的系统中。其理念是在单个兼容 PostgreSQL 的分布式数据库中支持关系数据、向量搜索、图关系、缓存和全文搜索，而不是管理单独的专用数据库。

这使得开发人员可以使用熟悉的系统，同时为现代人工智能工作负载提供所需的灵活性，显著减少基础设施蔓延，简化操作，并最终保持开发人员的生产力。

理想的架构通过关注三个关键层来简化人工智能堆栈：

推理层：处理运行时执行、内存、自定义模型以及关键缓存，以降低成本并加快响应速度
知识层：管理数据源、数据摄取、索引和检索，以确保为人工智能提供高质量、最新且相关的输入
数据库层：通过将传统数据库、向量存储、图系统和搜索引擎统一到一个兼容 PostgreSQL 的基础设施中，充当融合点，以简化操作并加速开发

随着应用程序的成熟，数据架构有望支持多种工作负载。如果每个数据模型都需要一个单独的数据库，组织很快就会积累必须加以保护、监控和同步的数据孤岛。

整合这些工作负载可以减少故障并简化治理。将嵌入与关系数据保存在同一系统中，消除了对独立向量存储的需求以及使其与操作记录保持同步所需的持续工作。

“从一个数据平台提供多种访问模式的能力已成为现代应用程序的实际要求，推动了多模态 API 支持的采用。”

从一个数据平台提供多种访问模式的能力已成为现代应用程序的实际要求，推动了多模态 API 支持的采用。随着应用程序需求的发展，共享数据基础可以适应 SQL、NoSQL 和人工智能驱动的工作负载，而无需强制团队引入新系统。将嵌入、操作数据和访问控制保持在一起，可以更容易地将语义搜索与权限和业务逻辑结合起来，同时避免不必要的系统边界。

结果是更少的工具、更少的集成路径以及一个可根据需要进行扩展和缩减的数据架构，而不会加剧工具蔓延。

下一步是什么？

最近一项行业调查显示，76% 的技术领导者将开发下一代应用程序（包括基于人工智能的应用程序）列为组织的首要任务。

这突出了首先现代化数据基础设施的必要性，因为成果越来越依赖于强大的数据纪律，而不是不受约束的实验。当数据输入分散或跟踪不力时，系统可能会强化误导性信号，而不是提供真实的洞察。这就是为什么数据质量、可观测性以及保持人工参与与模型性能一样关键。将人工智能锚定在统一、良好治理的数据基础中，有助于组织满足业务需求，同时确保人工智能能够提高决策水平，而不是放大错误。未来的人工智能领导者将是那些构建更智能基础设施的人，而不仅仅是更智能模型的人。