2026年,AI协作是主流。代理更专业,模型更小且多样化。强调即插即用、跨云互换。RAG演变,RAC兴起。区域GPU云和小型模型成趋势,以应对成本并实现未来可切换性。
译自:Data in 2026: Interchangeable Models, Clouds, and Specialization
作者:Jelani Harper
当前,为了集中日益碎片化的数据生态系统(其分布于不同供应商、基础设施、架构和工具之间),人们付出了大量且多样化的努力。然而,在2026年,它们有一个共同点:它们都强调了采用合作方式来构建应用程序、部署应用程序并获取其潜在业务价值的必要性。
对于智能代理来说,这种集体方法意味着代理之间将有更高的专业化程度和更多的互动。Talentica Software技术副总裁Aniket Shaligram表示,支撑这些代理的模型将变得更加多样化,很可能会变得更小,并将促进代理与人类之间的合作,因为“AI助手将催生出拥有明确职责和成果的AI‘团队成员’。”“组织将规范这些AI代理如何为工作流程做出贡献、衡量绩效并与人类团队协作。”
这种协作将涵盖以数据为中心资源的整个范围,从联邦基础设施到支持不同模态的传统数据库、向量嵌入,以及MCP、代理-用户交互(AG-UI)和代理到UI(A2UI)等协议。Yugabyte首席执行官Karthik Ranganathan评论道,用户将不再寻找提供所有这些功能的单一超大规模厂商或供应商,而是寻求“即插即用的能力”。“仅仅说一件事就能搞定所有问题,就像你在提问之前就已经知道答案一样。”
这种互换性甚至将包括云提供商,因为行业正在向更区域化、更专业化的云服务转型,以应对特定的统计性AI任务。
代理间协作
AI代理之间的合作既取决于记录和监控代理行动的技术框架,也取决于各自代理的协同工作。用户可以通过不同的数据库实现前者,包括文档存储、图数据库和知识图谱应用程序。
Franz首席执行官Jans Aasman表示,通过这种方法,“代理的所有输入和输出,以及每一个决策,都将进入编排知识图谱。”编排图谱是执行数据治理策略和追踪代理行动的理想选择。代理可以根据不同的任务、数据库方向(如人力资源、客户满意度、库存管理等)或垂直领域进行编码。
此外,代理间协作涵盖了AI模型——这些模型可能来自任何提供商,甚至是竞争供应商。Ranganathan说:“就像每样东西都有不同的超能力一样。但是,如果你去谷歌,你只得到一种东西;如果你去其他地方,你也只得到一种东西。但是我们构建向量算法和存储层的方式,是保留了pgvector接口层,并使这些[模型]中的任何一个都可以即插即用。”
RAG的退役
RAG仍然是语言模型与企业交互最普遍的方式——尽管通常是作为助手。2026年,一些发展将改变这一现状。首先,提示窗口大小的扩展大大减少了对RAG的需求,因为用户可以将所有相关信息(包括文档或手册)输入到自然语言问题中。
集成建模是AI模型之间另一种协作方式,其中多个大型语言模型(LLM)在达成共识响应之前阅读文档或向量化内容。Aasman解释说:“你有三到五个LLM阅读一个文档。你指定要从文档中获取的信息,然后会有一个解析器系统在幕后工作,协调所有不同模型的输出,这样我们最终得到的数据就是99.9%正确的。如果你只使用一个,可能只有60%正确。”
检索增强对话
语言模型指导人机交互的实例,有些人称之为检索增强对话(RAC),典型地体现了模型作为人类教练或合作者的新角色。Aquant创始人Assaf Melochna表示,通过这种方法,“AI知道答案并向用户提问,用户回答,而AI评估答案并提供一些指导。”
例如,客户服务代理可能正在与一个语言模型合作,讨论帮助客户解决连接问题的正确程序,Melochna说:“AI会说这很好,但我会强调A、B和C;我们现在再做一次。”这些对话系统可能涉及语音识别和短期记忆结构。在这种以及其他实现中,权力动态从人类转移到模型是显而易见的。Aasman描述了他与一个用于知识图谱的语言模型互动的场景。
Aasman说:“它告诉我什么可能,我则说出我真正想要的,它会说‘我们试试这个’,然后它尝试了并回答说‘这很酷,请把它存储在可视化中’,然后它继续进行。”
AI云超越超大规模厂商
不同用例、行业和AI任务中语言模型的互换性将通过云部署中的相应模式得到体现(如果不是因此实现的话)。在某些情况下,这种情况将导致访问模型的新模式。Leaseweb Canada首席执行官Roger Brulotte表示:“实验室、大学和研发团队正在构建和训练模型,然后通过许可模式或收入分成协议将商业化版本交还给客户。”
对于这些模型的使用者和供应商来说,为了训练、微调、部署和实施语言模型工作流,快速启动数据的能力需要专门为此任务构建的资源。其中最重要的是GPU的普及。Talentica Software新兴技术负责人Pankaj Mendki评论道:“随着对推理级别GPU计算需求的激增,组织将采用按需GPU服务。无服务器GPU模型将允许动态扩展,减少运营开销,并成为生成式AI工作负载的标准基础设施方法。”
GPU云
Neocloud提供商——专门为高级机器学习任务提供资源的小型云服务商——而不是超大规模厂商,大量提供此类基础设施和工具。Leaseweb首席执行官Richard Copeland表示:“当您的模型性能成为竞争优势时,您无法承受计算浪费、不可预测的限制,或被切分成您无法看到的零碎单元的硬件。这时,优化后的IaaS和区域GPU云便开始大放异彩。”
此外,组织将需要一个动态存储层,以便将数据放置在最靠近其所选云服务商的位置,以执行特定任务,为作业准备好数据,然后将数据(可能包括训练和推理作业的结果)返回到其长期对象存储中。在不同云之间迁移AI模型和数据以最大程度地降低成本、优化计算和存储选项的能力,是2026年大胆新未来的一部分。
Copeland说,通过这种方法,“公司将能够安全地在多个云、区域提供商乃至本地环境中分配计算。”特定云的选择将由企业在特定时间的需求决定,无论这些需求多么短暂。
面向未来
云服务中将体现的适应性同样适用于组织用来协作以及与人类协作的底层AI模型。Aasman认为,推动这两方面发展的成本担忧是不可否认的。Aasman说:“IBM的首席执行官曾说过,我们无法维持目前对AI的投资。他们将LLM用于一切,投资达8万亿,但OpenAI、Oracle、Google和Amazon的总收入只有2300亿美元。这是不可持续的。因此,前进的唯一途径是采用小型模型。”
对小型语言模型的更大依赖只会增加模型的多样性、它们的专业化领域,以及根据手头任务互换它们的需求。这样做不仅是2026年的愿景,也是未来的愿景。Ranganathan将这种即时适应性称为“面向未来。这是一种真正民主化的切换能力。”