Cloudflare 做了一个统一推理层,AI Agent 的基础设施战开打了

22 阅读4分钟

Cloudflare 昨天发了一篇博客,标题很直白:"An inference layer designed for agents"。把 AI Gateway 升级成了统一推理层 —— 一个 API 调 14+ 家模型提供商的 70+ 个模型。

这不是又一个模型聚合 API。这是 CDN 巨头在 AI 基础设施层面的一次战略卡位。

问题在哪

做过 AI Agent 开发的人都知道,一个 Agent 完成一个任务可能要串联十几次模型调用:分类用便宜快速的小模型,规划用推理能力强的大模型,执行用性价比高的中等模型。

Cloudflare AI Platform 架构 Cloudflare 的统一推理层架构:一个 API 接入所有模型提供商

这意味着你要同时对接 OpenAI、Anthropic、Google 等多家 API,管理多套密钥、多套计费、多套错误处理。某家 API 挂了?你的整个 Agent 链路就断了。延迟叠加?一个慢请求不是多 50ms,而是在十次调用后变成 500ms。

这是一个真实的工程痛点,不是伪需求。

Cloudflare 的解法

核心思路很简单:把模型调用变成和 CDN 一样的基础设施

具体来说:

  • 统一 APIenv.AI.run('anthropic/claude-opus-4-6', {...}) —— 换模型只改一个字符串参数
  • 统一计费:一套 credits 覆盖所有提供商,不用分别充值
  • 自动容灾:某家 API 挂了自动重试或 fallback 到其他提供商
  • 全球边缘网络:利用 Cloudflare 现有的 CDN 节点降低推理延迟

对于 Workers 用户来说,切换模型提供商是一行代码的事。对于非 Workers 用户,REST API 也在路上。

为什么这件事值得关注

表面上看,这只是又一个 API 网关。但往深了想,Cloudflare 在做的事情有几层含义:

第一,模型正在商品化。 当你可以用一个 API 无缝切换 70+ 个模型时,单个模型提供商的护城河就变薄了。开发者不再需要"选边站",而是按场景选最优模型。这对模型厂商的定价权是一个长期压力。

第二,Agent 的基础设施需求和传统 AI 应用完全不同。 聊天机器人一次请求调一次模型,Agent 一次任务可能调十次。这意味着延迟、可靠性、成本控制的重要性都被放大了一个数量级。谁能在这一层做好,谁就掌握了 Agent 时代的"水电煤"。

第三,CDN 公司做 AI 推理层有天然优势。 Cloudflare 的全球边缘网络、流量管理经验、DDoS 防护能力,这些在 AI 推理场景下都能直接复用。这不是从零开始,而是能力的自然延伸。

冷静看几个问题

当然,也不是没有隐忧。

锁定风险。虽然号称"统一 API",但 env.AI.run() 这个接口本身就是 Cloudflare Workers 的专属 API。用了它,你的代码就和 Cloudflare 绑定了。REST API 能缓解这个问题,但还没发布。

延迟开销。多一层代理必然多一跳延迟。Cloudflare 说利用边缘网络可以降低延迟,但对于延迟敏感的 Agent 场景,这个 trade-off 需要实测数据来验证。

模型覆盖度。70+ 个模型听起来多,但实际上很多是同一家的不同版本。真正常用的模型也就那么十几个。关键是新模型上线的速度能不能跟上 —— 模型迭代现在是按周计的。

多模型时代的基础设施

这件事的本质是:AI 开发正在从"选一个模型用"变成"按需调度多个模型"

无论是 Cloudflare 这样的基础设施层面的统一推理,还是像 OfoxAI(ofox.ai)这样面向终端用户的多模型聚合平台,解决的都是同一个问题 —— 让模型切换的成本趋近于零。区别在于一个面向开发者的 API 调用,一个面向用户的产品体验。

Agent 时代的竞争不只是模型能力的竞争,更是基础设施的竞争。Cloudflare 这一步,让"推理层"正式成为了一个独立的基础设施品类。

接下来看谁跟进。AWS、Azure、GCP 大概率不会坐视不管。


参考:Cloudflare's AI Platform: an inference layer designed for agents