Anthropic、OpenAI、谷歌和微软共识:Agent开发套件已成核心产品,唯价格存异

2 阅读12分钟

\n\nAnthropic、OpenAI、谷歌和微软正围绕Agent开发套件(Harness)展开竞争,将其视为核心产品。虽然对其价值有共识,但商业化路径迥异:有的按小时收费,有的按组件计费,OpenAI则选择开源免费。这一分歧正重塑AI中间件市场及企业自研策略。

译自:Anthropic, OpenAI, Google, and Microsoft agree that the harness is the product. They disagree on the price.

作者:Janakiram MSV

3 月 30 日,Sycamore 宣布 获得 6500 万美元种子轮融资,旨在构建其创始人所称的自主企业 AI 操作系统。4 月 8 日,Anthropic 推出了 托管 Agent (Managed Agents) 公测版,定价为每会话小时 8 美分。七天后,OpenAI 发布 了自己的模型原生开发套件(Harness),作为其开源 Agents SDK 的更新,除了标准的 API 和工具定价外,不额外收取第一方运行时费用。

十六天内的三次行动,都在押注同一个市场观察:开发套件(Harness)现在就是产品。但在如何销售该产品的问题上,各大实验室存在公开且尖锐的分歧。

Anthropic 在其基础设施上增加了一个单独计费的运行时。谷歌和微软打包了这一层,用于会话、内存、代码执行和工具使用的消耗。OpenAI 则将运行时作为开源软件免费提供,仅对已有的模型和工具调用计费。这一类别正在迅速形成,而商业模式尚未定型。

开发套件(Harness)现在就是产品。但在如何销售该产品的问题上,各大实验室存在公开且尖锐的分歧。

什么是开发套件,以及它为何成为一个市场

“Harness”(开发套件/脚手架)一词在 2 月份开始广泛流传,当时 OpenAI 发布了一篇工程 博文,描述了一个小团队如何交付了一个拥有百万行代码的生产系统,而其中没有一行代码是由人工编写的。这个词之所以能流行,是因为它命名了一门团队一直在实践却缺乏标签的真实学科。Martin Fowler 在 4 月初发表了一篇长篇 文章,将开发套件工程(Harness Engineering)定义为围绕 AI 模型的一切,模型本身除外。

开发套件是围绕 Agent 的控制层,帮助其在生产中可靠运行。它通常涵盖模型调用和上下文管理、工具编排、沙箱化执行、持久化会话和执行状态、作用域权限、错误恢复、可观测性以及追踪。从这个意义上说,它类似于容器周围的生产基础设施:不是模型本身,而是让长时间运行的 Agent 变得安全、可调试和可靠的周边系统。

在过去的 18 个月里,云供应商和框架供应商提供了这一层的部分托管组件,但大多数交付生产级 Agent 的团队仍需自行组装太多东西。初创公司筹集资金销售现成版本;内部平台团队利用开源组件构建自己的版本。开发套件之所以成为一个市场,是因为现有的碎片化方案尚未能提供一个简洁的答案。

Anthropic 发布了什么,成本是多少

托管 Agent(Managed Agents)是 Anthropic 对这一空白给出的答案,以 Claude 平台上的 Beta 版 API 形式打包。开发者定义 Agent、工具和护栏,由 Anthropic 运行执行环境,支持跨越数小时的长时间运行会话、沙箱化代码执行、作用域权限、端到端追踪以及基于 MCP 的第三方服务连接。

首批客户极具分量。Notion 使用托管 Agent 运行数十个并行委派任务。乐天(Rakuten)在产品、销售、营销、财务和人力资源领域部署了专家级 Agent。Sentry 构建了一个 Agent,可以将标记的 Bug 直接转化为公开的 Pull Request,中间无需人工参与。Asana 将该服务整合到其 AI Teammates 功能中,Atlassian 也作为首批客户签约。

定价在对比中显得很透明。标准 Claude 平台 Token 费率适用于所有模型推理,会话运行时按使用量收取每小时 8 美分的费用。多 Agent 编排、自我评估结果和长期记忆则位于另一个单独的研究预览访问请求之后,这意味着三个最有趣的功能受到了限制。

Anthropic 还发布了一个用于编程构建的 Claude Agent SDK,因此托管与开源的区别主要体现在产品之间,而非仅仅在公司之间。但 4 月 8 日发布的托管 Agent 仅托管在 Anthropic 的基础设施上。

OpenAI 发布了什么,成本是多少

七天后,OpenAI 进行了不同的押注。更新后的开源 Agents SDK 增加了模型原生开发套件和原生沙箱执行,具有可配置内存、沙箱感知编排、Codex 风格的文件系统工具以及标准化的 MCP 集成。它的目标是跨越数小时和多次工具调用的长周期 Agent,这与托管 Agent 的用例完全一致。

其交付模式与 Anthropic 相反。OpenAI 不运行计算。开发者通过 Manifest 抽象自带计算资源,支持包括 Blaxel、Cloudflare、Daytona、E2B、Modal、Runloop 和 Vercel 在内的七家沙箱供应商,存储则跨越 S3、GCS、Azure Blob 和 Cloudflare R2。外部化状态允许运行在沙箱容器丢失时幸存,通过快照在新的容器中恢复运行。开发套件负责协调,但基础设施属于开发者。

定价界限使对比更加鲜明。OpenAI 的公告称,新功能使用基于 Token 和工具调用的标准 API 定价,没有单独的第一方运行时费用,也没有会话小时计费。SDK 本身是免费且开源的。开发者仍需向所选供应商支付沙箱计算和存储的费用,因此总成本并非为零,但 OpenAI 拒绝增加自己的运行时计费项。根据工作负载的形态,总成本可能高于或低于 Anthropic 的捆绑模式。

OpenAI 明确解释了原因。其公告将托管 Agent API 描述为简化了部署,但代价是限制了 Agent 的运行位置以及访问敏感数据的方式。这与 Anthropic、谷歌和微软选择的路径构成了直接的公开分歧。

实验室在占领这一层上达成一致,但在计费上存在分歧

谷歌将 Vertex AI Agent 引擎 列为全托管运行时,包含会话、内存、代码执行和可观测性,每个部分都作为单独的消耗项计费,而非统一的每小时费用。微软发布了 Foundry Agent 服务,对模型和工具进行基于消耗的计费,在代码解释器等工具上进行特定的会话计费,而非对整个平台计费。AWS 在 2 月份 宣布 将与 OpenAI 共同创建有状态运行时环境(Stateful Runtime Environment),未来几个月将通过 Bedrock 提供,同时 Bedrock AgentCore 将作为运行时原语层。

每一种都是不同的定价形态。Anthropic 将计算、状态和编排捆绑到会话小时费中。谷歌对组件单独计费,而微软按模型和工具计费。一旦 OpenAI 运行时发布,AWS 将增加另一条托管路径。OpenAI 的第一方答案则完全跳过了运行时计费。

这五家供应商都认同这一层很重要,并且都想占领它。他们的分歧在于:该产品是拥有独立计费项的托管服务,是一系列定价原语的集合,还是由模型收入支撑的开源 SDK。这种分歧并非僵局,而是一种刻意的战略分歧。

中间件的演变,伴随着分歧

云基础设施以前也见过这种分歧,其结果并非简单的吞并。Terraform 在 AWS CloudFormation 的托管方案面前保持了开源地位。尽管 AWS、谷歌和微软推出了托管容器服务,Kubernetes 依然保持开源并成为事实上的标准。在这两个案例中,开源没有消灭托管,托管也没有杀死开源。它们共存是因为服务于完全不同的买家群体。

教训在于,当一家供应商发布免费开源软件,而其他供应商发布付费托管软件时,市场倾向于按基础设施偏好进行划分,而非崩塌。追求托管便利性的团队会选择托管服务;追求控制权、移植性或多云灵活性的团队会选择开源技术栈。两者在云时代都维持了真实的业务。

改变的是销售该层横向版本的独立公司的经济效益。来自 OpenAI 的免费模型原生开发套件,给独立框架带来的定价压力比付费托管服务要大得多。云模式正在这里上演,但伴随着两次并行的压缩。

这对填补空白的初创公司意味着什么

我的解读是,开发套件初创公司的风险特征变得更加具体。Sycamore 向 Coatue 和 Lightspeed 的推介重点是企业 AI 中的信任、治理和控制,并内置了多模型支持。这种推介在面对 Anthropic 托管路径和 OpenAI 开源路径时都具有真正的防御性,因为它针对的是关心独立于单一实验室的买家。Sycamore 看起来不像是易受攻击的典型。

在我看来,受这些发布影响最大的是横向编排框架。LangChain、CrewAI 和 VoltAgent 现在正与来自实验室的免费、模型原生、支持良好的开发套件直接竞争,而它们又依赖于这些实验室的模型。当相关供应商正在赠送一个与其前沿模型对齐更好的开源开发套件时,模型无关框架一直宣称的“灵活性战胜供应商锁定”的性能论点就变得难以立足。那些仍在向企业买家推销横向模型无关编排层的公司,接下来的对话可能会更艰难。

销售付费托管平台的初创公司面临着来自 Anthropic、谷歌和微软的挤压。对我来说,针对这两种压力的战略答案看起来是一样的:向治理、合规、垂直深度或多模型控制进行差异化,或者在价格上与一侧的免费和另一侧的捆绑包竞争。

这对自研系统的团队意味着什么

“自研还是采购”的权衡有了两个新的参考点。想要捆绑基础设施的团队,可以将内部开发套件与每会话小时 8 美分(外加 Token 费)的 Anthropic 托管 Agent 进行基准对比。已经运行自己基础设施的团队,可以与 OpenAI 的 SDK 进行对比,除了支付给沙箱和存储供应商的费用外,无需支付额外的一方运行时费用。不同的团队会发现不同的基准具有相关性,但一个月前这两个基准都不存在。

对于仍处于原型阶段的团队,从头开始构建支架在一夜之间变得难以辩护。过去曾是差异化工程的基础设施工作,现在变成了通过 API 或免费 SDK 即可获得的服务。对于已经在生产环境中的团队,内部系统可能仍然更适合工作负载。但维护它的团队现在正与四个前沿实验室积极投资的类别竞争,这将使这项工作的演进变慢、威信降低且更难招聘。

自研仍然是一个有效的选择。只是它现在必须在工作负载适配度和团队可持续性上同时击败这两个基准,而不仅仅是其中之一。

下一步

开发套件(Harness)本应是护城河。十八个月来,大多数交付生产级 Agent 的团队都在构建或组装自己的套件,这项工作就是差异化所在。前沿实验室集体决定不再只是销售模型访问权并眼睁睁看着别人攫取上层利润,但在如何亲自获取利润上,他们产生了分歧。其中三家以某种形式对运行时收费。一家正在赠送开发套件,押注于模型忠诚度。

开发套件(Harness)本应是护城河。

值得关注的问题是,哪种商业模式会胜出,或者市场是否能维持所有这些模式。OpenAI 的赌注是,免费、开源、模型原生的开发套件比付费托管运行时更能驱动模型消耗,而 Bedrock 合作伙伴关系涵盖了需要托管的企业。Anthropic 押注于付费的全托管版本,而谷歌和微软则押注于在更广泛的平台内对原语进行定价。并非所有这些模式都能在同一规模下取得成功,而在一旁观察的初创公司在承诺其差异化战略之前,需要知道流量流向何方。请继续关注我,我将为您解读不断演进的 Agent 开发套件和运行时的概念。全 工智能