开发者正在选择更老的AI模型——数据解释了原因

193 阅读6分钟

原文

发布日期:2025年10月20日

在Augment Code,我们在生产环境中并行运行多个前沿模型。这让我们获得了独特的视角来观察不同模型在实际编码工作流程中的表现。使用模式表明,开发者不再只是追逐最新的模型;他们正在根据特定的任务配置文件来匹配模型。

本文分享了来自数百万次实时交互的数据,并讨论了这些数据可能揭示的关于模型采用、行为差异和系统级权衡的信息。

模型采用正在分化

在2025年10月的第一周,Sonnet 4.5在总请求中的份额从66%下降到52%,而Sonnet 4.0从23%上升到37%。GPT-5的使用保持稳定在约10-12%。

日期Sonnet 4.5Sonnet 4.0GPT-5
2025-09-3066.18%23.26%10.57%
2025-10-0159.39%30.28%10.33%
2025-10-0255.77%33.54%10.69%
2025-10-0354.16%35.36%10.48%
2025-10-0456.66%31.70%11.64%
2025-10-0556.54%31.02%12.44%
2025-10-0652.29%37.38%10.33%

乍一看,这可能看起来像新版本发布后的短期波动。但如果开发者只是在升级,Sonnet 4.5的份额会继续上升,而4.0的份额会下降。但情况恰恰相反。两个模型都保持了显著的使用量,这表明团队正在根据任务的类型而不是版本号来选择模型。换句话说,升级开始表现得像是替代品而不是继任者。这种转变标志着生产环境中专业化的早期阶段。

行为分化:推理深度 vs. 行动频率

尽管产生更大的总输出,Sonnet 4.5每条用户消息进行的工具调用次数比4.0少。

模型平均工具调用/用户消息
Sonnet 4.512.33
Sonnet 4.015.65
GPT-511.58

更高的冗长度结合更少的行动表明,Sonnet 4.5在决定行动之前进行更多的内部推理。相比之下,4.0进行更频繁的工具调用,偏好快速任务执行而不是扩展 deliberation。GPT-5在调用频率上接近4.5,但倾向于自然语言推理而不是工具使用。

我们正在监测这种行为差异是否与提示成功率一致。如果更高的内部推理与改进的完成率相关,这将确认Sonnet 4.5的"多思考,少行动"倾向导致更好的结果。

吞吐量和代币经济

Sonnet 4.5每条消息生成更多的文本和工具输出——平均约7.5k个代币,而4.0为5.5k个代币。这是每次交互总输出增加37%

模型文本输出工具输出总输出
Sonnet 4.52,4975,0187,517
Sonnet 4.01,1683,9485,481
GPT-53,7401,7295,469

更丰富的推理导致更多上下文相关的响应,但也引入了额外的延迟。我们还没有每请求每秒代币数据,但定性痕迹表明吞吐量略低,这与更深推理链所需的额外计算一致。

计算足迹和缓存利用

为了理解推理深度如何影响系统负载,我们抽样了一小部分生产数据,涵盖数十亿个代币和相应的缓存操作。

Sonnet 4.5仍然占处理量的大部分,比Sonnet 4.0多约三分之一的缓存读取。GPT-5总体上显示出轻得多的足迹。

模型输入代币文本输出工具输出总输出缓存读取
Sonnet 4.50.25 B0.75 B1.55 B2.30 B240.0 B
Sonnet 4.00.13 B0.20 B0.72 B0.92 B135.0 B
GPT-50.16 B0.22 B0.10 B0.32 B28.0 B
总计0.54 B1.17 B2.37 B3.54 B403.0 B

Sonnet 4.5更高的缓存读取量可能来自检索增强工作流程的更重使用和更长的上下文窗口。这表明系统级转变:更多计算被花在管理和重用上下文上,而不是代币生成本身。

新兴专业化:每个模型擅长的领域

即使开发者可以自由选择模型,他们的行为也揭示了按任务类型的明确偏好。使用数据和定性反馈显示了专业化的早期迹象。

模型观察到的优势典型工作流程
Sonnet 4.5长上下文推理、多文件理解、自主规划重构代理、复杂调试、设计综合
Sonnet 4.0确定性完成、一致格式化、工具友好输出API生成、结构化编辑、基于规则的转换
GPT-5解释流畅性、一般推理、混合编码+文档代码讲解、总结、开发者教育

每个模型似乎都强调推理和执行之间的不同平衡。开发者不是在寻求一个"最佳"系统,而是在组装模型合金——选择最适合任务认知风格的组合。

社区情绪反映生产行为

关于Sonnet 4.5、4.0和GPT-5的社区讨论与生产数据密切一致:

  • Sonnet 4.5: 用户描述它深思熟虑且在多文件推理方面可靠,但偶尔对于简单编辑来说冗长或较慢。它有效处理重构和架构规划,但可能过度解释。
  • Sonnet 4.0: 因工具集成稳定性和可预测格式化而受赞扬。它快速且一致,是自动化或基于规则的编码任务的理想选择。团队经常选择它作为"安全默认"模型。
  • GPT-5: 在解释的流畅性和清晰度方面得到认可。它在混合推理加写作的情境中表现良好,如代码审查和文档,但在繁重的工具执行方面落后。
主题Sonnet 4.5Sonnet 4.0GPT-5
推理深度⭐⭐⭐⭐ — 深度规划,有时过度思考⭐⭐ — 直接,任务驱动⭐⭐⭐⭐ — 分析性和表达性
延迟/响应性较慢快速中等
输出确定性中等中等
代码生成质量多文件方面优秀单文件方面强混合代码+文档方面很棒
理想使用案例重构、架构自动化、结构化任务讲解、学习、综合

要点:行为专业化的早期信号

从这个数据集中出现三个主要洞察:

  1. 采用正在多样化,而不是整合。 新模型并不总是对每个工作流程都更好。
  2. 行为分化是可测量的。 Sonnet 4.5推理更深入,而4.0行动更频繁。
  3. 系统成本正在转移。 推理强度和缓存利用现在是核心性能指标。

这里的故事不是一个模型超越其他模型,而是每个模型都在发展自己的细分市场。随着能力扩展,行为分化。行业可能正在进入一个功能专业化取代追逐单一"最佳"模型的阶段——就像数据库如何演化为针对不同工作负载优化的SQL、NoSQL和时间序列系统。同样的动态开始在AI中出现:成功较少取决于整体实力,更多取决于适合工作的正确认知风格。

随着推理深度增加,这些行为区别可能定义AI工具的下一阶段。构建者的关键问题不再是"哪个模型最好?"而是"哪个模型最适合这个任务?"