\n\nOpenAI 与 DeepSeek 截然不同的定价策略导致 AI 市场出现两极分化:高端全栈产品变贵,而开源基础设施大幅降价。这种“中间层”的塌陷迫使开发者必须在集成服务与自主架构间做出权衡,模型路由逻辑成为核心。
译自:The disappearing AI middle class
作者:Janakiram MSV
在上周的 24 小时内,OpenAI 和 DeepSeek 对前沿 AI 的价值做出了截然相反的赌注。一方认为它是变得更昂贵的闭源产品;另一方则认为它是变得大幅廉价的开源基础设施。市场两端之间的价格差距现在达到了多年来的最高水平,而大多数编程智能体一直以来赖以生存的舒适中间层正在变得稀薄。
直到上周,你还可以在一条相当平滑的价格-性能曲线上选择模型。那时有顶级、中级和预算级之分,大多数工作负载都能在斜坡上找到舒适的位置。这条曲线依然存在,但它被拉长了。曾经连续的梯度现在看起来更像是两个中间有断层的集群,而构建智能体、编程助手和高吞吐量推理流水线的开发者现在必须更加深入地思考该向哪一侧路由。
大多数编程智能体一直以来赖以生存的舒适中间层正在变得稀薄。
24 小时内的分歧
4 月 23 日,OpenAI 发布了 GPT-5.5,定价为每百万输入 token 5 美元,每百万输出 token 30 美元。这恰好是 GPT-5.4 费率(2.50 美元和 15 美元)的两倍。该模型使用 1M token 的上下文窗口,在 Terminal-Bench 2.0 上得分 82.7%,高于 GPT-5.4 的 75.1%。OpenAI 辩称,价格上涨被 token 效率抵消了,声称 GPT-5.5 在完成相同的 Codex 任务时使用更少的 token。该公司尚未在其发布页面上公布准确的有效成本数据,因此每项任务的经济效益取决于具体的工作负载。
4 月 24 日,DeepSeek 发布了 V4-Pro 和 V4-Flash。V4-Pro 的标价为每百万输入 token 1.74 美元,每百万输出 token 3.48 美元,并记录了延续至 2026 年 5 月 5 日的发布折扣。V4-Flash 的定价为输入 0.14 美元,输出 0.28 美元。两者均采用 MIT 许可证并在 Hugging Face 上提供完整开源权重,且默认均支持 100 万 token 的上下文窗口。根据模型卡验证,V4-Pro 在 SWE-bench 上达到了 80.6%,与 Claude Opus 4.6 仅一步之遥。
一个周末内两次定价公告,方向完全相反。按标价计算,V4-Pro 的输出 token 成本大约仅为 GPT-5.5 输出成本的九分之一。在发布折扣下,这一差距进一步拉大。V4-Flash 更是低了另一个数量级。这种算术结果令人震惊,而其背后的框架意义更为重大。
AI 成本差距的扩大
| 模型 | 输入 (每 1M) | 输出 (每 1M) | 上下文 |
|---|---|---|---|
| Open AI GPT-5.5 | $5.00 | $30.00 | 1M Tokens |
| Anthropic Opus 4.7 | $5.00 | $25.00 | 1M Tokens |
| DeepSeek V4-Pro | $1.74 | $3.48 | 1M Tokens |
| DeepSeek V4-Flash | $0.14 | $0.28 | 1M Tokens |
OpenAI 实际上在卖什么
GPT-5.5 不仅仅是一个更智能的模型,它是一个技术栈的核心。Codex 继承了这一升级,扩展了计算机使用、浏览器交互和更长的智能体运行能力。ChatGPT 是 Plus、Pro、Business 和 Enterprise 层级的默认配置。API 也获得了与消费者界面相同的 1M 上下文窗口。
他们的赌注在于:智能、推理栈、智能体框架和计算机使用是一个整体产品,而该产品的价值是上一代产品每 token 价格的两倍。Greg Brockman 在发布简报中将其描述为一个能够采取一系列行动、使用工具、检查自身工作并持续运行直至任务完成的模型。其客户是那些希望从单一供应商处获得全套服务(单一 API 密钥、单一安全审查和单一账单明细)的企业。OpenAI 卖的不是 token,而是结果,而结果现在是相应定价的。
OpenAI 卖的不是 token,而是结果,而结果现在是相应定价的。
这也解释了发布的节奏。GPT-5.4 在 3 月初发布,GPT-5.5 在六周后紧随其后。这不是一场基准测试竞赛,而是一场企业采购策略。OpenAI 的发布速度足以让其在每个第三季度的预算对话中保持“默认选择”的地位,且定价高到足以资助下一次训练运行,同时不会稀释其高端定位。闭源产品就是护城河。
OpenAI 并没有撤销较便宜的层级。GPT-5.4、GPT-5.4 mini 和 GPT-5.4 nano 依然在价格单上,此外还有 Batch、Flex、Priority 和缓存输入费率。OpenAI 的产品目录中层依然存在。改变的是旗舰模型的位置,而旗舰模型才是编程智能体和前沿工作负载默认指向的对象。
DeepSeek 实际上在交付什么
V4 并非单纯的价格战举动。其定价是三个不同决策的产物。
第一是架构。V4-Pro 是一个混合专家模型(MoE),拥有 1.6 万亿总参数,每个 token 激活 490 亿参数。V4-Flash 的总参数为 2840 亿,激活 130 亿。DeepSeek 的 模型卡 描述了一种结合了压缩稀疏注意力和重度压缩注意力的混合注意力机制,旨在减少 1M token 推理的 FLOPs 和 KV 缓存。该模型在每个 token 仅激活一小部分权重的情况下,达到了接近前沿水平的基准测试分数。更聪明的架构,更少的算力。
第二是分发。MIT 许可证是目前最宽松的开源许可证。任何人都可以下载权重、托管、微调、将其嵌入产品并进行商业交付。拥有 13B 激活参数的 V4-Flash 可以在中型团队负担得起的多 GPU 集群上运行。V4-Pro 需要更强大的基础设施,但选项是开放的。DeepSeek 押注前沿智能会像 Linux 一样成为基础设施,而发布权重的实验室将占领生态系统,而非仅仅获取运行时利润。
DeepSeek 押注前沿智能会像 Linux 一样成为基础设施,而发布权重的实验室将占领生态系统,而非仅仅获取运行时利润。
第三是硬件。同一天,华为宣布其昇腾(Ascend)超级节点全面支持 V4 推理。路透社报道称 V4 已针对华为最先进的昇腾 AI 芯片进行了适配,华为表示其芯片被用于 V4-Flash 的部分训练。
DeepSeek 未说明 V4-Pro 是否在与早期 V3 和 R1 模型(运行在 Nvidia 上)相同的硬件上训练。受此消息影响,在香港上市的中国代工厂中芯国际(SMIC)股价上涨 10%。
华虹半导体上涨 15%。这释放了一个明确信号:高端开源权重推理,以及至少一部分模型的训练,可以适配到昇腾技术栈上。这并不等同于完全脱离 Nvidia,但在前沿级别的发布中,这还是第一次让人觉得这个问题值得探讨。
一个重要的注意事项:DeepSeek V4 发布时仅支持文本。DeepSeek 表示多模态功能正在开发中,但目前尚不支持图像和视频。对于需要多模态推理的工作负载,V4 目前还不是 GPT-5.5 或 Opus 4.6 的直接替代方案。
更便宜的推理是这三个决策的结果,而非战略本身。其战略是让文本智能看起来像一种大宗商品。
中间层正在变薄,而非消失
在上周之前,构建编程智能体的开发者有一个舒适的中间选择。GPT-5.4 以 2.50 美元和 15 美元的价格处于黄金平衡点:便宜到足以扩展,聪明到足以胜任大多数智能体工作,且由大家信任的供应商托管。该层级依然在价格单上,但它不再是旗舰,而新旗舰的价格是它的两倍。
GPT-5.5 以 5 美元和 30 美元占据了高端位置。V4-Pro 在折扣前就以 GPT-5.5 输出成本九分之一的价格占据了低端位置。V4-Flash 则更低一个数量级。Anthropic 的 Opus 4.7 输入约 5 美元,输出约 25 美元,与 GPT-5.5 一同处于溢价层级,而非处于溢价与开源权重之间的空隙中。
对于开发者来说,选择不再仅仅是关于哪种模型处于平滑曲线上。选择在于针对哪种任务采用哪种经济模式。是为集成产品付费,还是运行开源基础设施。许多生产环境的技术栈最终会同时路由到两者,因为现在的价格差距已经大到足以支撑路由逻辑的工程开发成本。
这对调度框架层意味着什么
两极分化带来了三个具体的转变。
第一个转变是智能体调度框架(Harness)必然变得更加模型无关(Model-agnostic)。Cursor、Claude Code、OpenAI Codex,以及开源框架 OpenClaw 和 Hermes Agent,现在都受益于清晰的路由逻辑,可以根据任务复杂程度在两种经济模式之间切换工作负载。
一个使用 GPT-5.5 进行规划、使用 V4-Flash 进行批量编辑的编程智能体已不再罕见。一旦价格差距如此之大,这就成了一种理所当然的架构。DeepSeek 指出 V4 已针对智能体工具(包括 Claude Code 和 OpenClaw)进行了优化,这表明调度生态系统一直在等待这一时刻。
第二是自托管的账面收益两年来首次发生变化。拥有 284B 总参数和 13B 激活参数的 V4-Flash 可以在中型团队负担得起的多 GPU 环境下运行。这种权衡是真实的:你放弃了超大规模云服务商 API 的托管可靠性,以换取可预测的推理成本和对模型的完全控制。对于那些 token 量是核心瓶颈且不需要多模态的工作负载,现在的权衡比一周前更加尖锐。
第三是“唯 Nvidia 论”的假设开始显得不再绝对。市场对 V4 的反应并不仅仅针对 DeepSeek。它让人们意识到,前沿级别的模型在发布时可以针对非 Nvidia 芯片进行优化,而且中国 AI 基础设施在国产芯片上运行的进度比大多数观察者一年前预想的要近。对于开发者来说,这扩展了长期的可行推理目标。对于 Nvidia 来说,这紧缩了其应对中国市场问题的窗口期。
下一步动向
成本前沿不再表现为平滑曲线。它是两个经济集群,中间隔着被拉长的断层,而且这个断层在短期内不会自动闭合。OpenAI 将继续快速发布并提高定价,因为集成产品就是护城河。DeepSeek 将继续发布开源权重并降低价格,因为大宗商品基础设施的论点取决于采用率。两者在不同的工作负载下都可以是正确的,同一个智能体可以在单个任务中在两者之间路由。
Anthropic 的 Claude Opus 4.7 目前与 OpenAI 一同处于溢价层级,但接下来的 90 天将揭示是否有人会尝试守住那日渐稀薄的中间地带。DeepSeek 背后的中国开源权重竞争者(通义千问、Kimi、GLM)将面临匹配 V4 定价和功能的压力,否则将面临失地的风险。调度框架层即将成为技术栈中最有趣的部分,因为跨越两种经济模式的路由逻辑已不再是可选项。下一篇文章将探讨开源调度框架如何针对这一时刻进行布局。敬请期待。全 工智能