Sonnet 4.6:花一半的钱,拿 95% 的能力。旗舰还有存在的必要吗

0 阅读4分钟

Sonnet 4.6:花一半的钱,拿 95% 的能力。旗舰还有存在的必要吗?

Opus 4.6 发布 12 天后,Anthropic 发了一个更狠的东西。

不是更大的模型,不是更高的跑分 — 而是一个几乎和旗舰一样强、但只要一半价格的模型。然后他们把它设成了免费用户的默认模型

这不是产品更新。这是 Anthropic 在告诉整个行业:前沿智能不应该是奢侈品。

Sonnet 4.6 social preview


发生了什么

2026 年 2 月 17 日,Anthropic 发布 Claude Sonnet 4.6。

关键信息:

  • 定位: Opus 和 Haiku 之间的中间层模型,但性能逼近旗舰
  • 定价: 3/3 / 15 per million tokens(输入/输出),Opus 4.6 是 5/5 / 25
  • 默认模型: Claude.ai 免费版和 Pro 版都默认切到 Sonnet 4.6
  • 1M token 上下文窗口 (beta, API)
  • Adaptive Thinking: 和 Opus 4.6 一样的自适应推理能力
  • Computer Use: 能操作 GUI,自动化桌面工作流

但真正让人坐不住的,是跑分。


数据说话:Sonnet 几乎追平了 Opus

看这组对比:

基准Sonnet 4.6Opus 4.6差距
SWE-bench Verified(软件工程)79.6%80.8%1.2%
GDPval-AA(知识工作)1633 Elo1606 EloSonnet 反超
OSWorld(桌面自动化)72.5%72.7%基本持平
Terminal-Bench 2.0(命令行编码)前沿水平最高分微弱差距

Sonnet 4.6 benchmark 对比图

没看错 — GDPval-AA 上 Sonnet 4.6 实际上比 Opus 4.6 还高。在衡量真实知识工作能力的基准上,便宜的那个赢了贵的那个。

SWE-bench 只差 1.2 个百分点。桌面自动化基本持平。

更直观的数据:在 Claude Code 中,用户偏好 Sonnet 4.6 而非上一代旗舰 Opus 4.5 的比例是 59%。不是跟同级别的 Sonnet 4.5 比 — 是跟上一代的旗舰比,而且赢了。

这意味着什么?上一代花旗舰价格买到的能力,现在中端模型免费送了。


所以旗舰还有必要吗?

有。但必要性正在缩小。

Opus 4.6 依然在这些场景不可替代:

  • 大规模代码重构 — 需要跨几十个文件保持一致性
  • 多 agent 协调 — Agent Teams 目前是 Opus 的杀手级功能
  • 高风险决策 — 法律、金融等容错率极低的场景

但对于绝大多数日常使用 — 写代码、做分析、处理文档、跑 agent 任务 — Sonnet 4.6 已经够了。不是"凑合用"的够了,是"真的够了"。

Replit 总裁 Michele Catasta 的评价很到位:"性价比是惊人的(extraordinary),在 agent 编排和复杂工作负载上超越了预期。"

Databricks CTO 则直接说:Sonnet 4.6 在文档理解任务上匹配了 Opus 4.6 的表现。

这让人想到一个更大的趋势:AI 模型的"中端化"。就像智能手机市场 — 旗舰和中端的差距越来越小,真正的战场不在顶端,而在"够好"这条线上。国内大模型公司也在经历同样的事:DeepSeek 的开源模型在成本效率上做得很激进,通义千问也在不断下调 API 价格。性价比,而不是绝对性能,正在成为 AI 模型竞争的主战场。


三个被低估的细节

1. 免费用户直接用上前沿模型

Sonnet 4.6 成为 Claude.ai 免费版的默认模型。免费层还新增了文件创建、connectors、skills、context compaction。

这不只是产品决策,是战略决策。Anthropic 在用免费层做用户获取的漏斗 — 让你先体验到接近旗舰的能力,然后为 Opus 或更高的用量付费。和 Spotify 的逻辑一样:免费版不是阉割版,而是让你上瘾的版。

2. Prompt Injection 防御大幅提升

官方特别强调 Sonnet 4.6 在抵抗 prompt injection(提示注入攻击)方面比 Sonnet 4.5 有"重大改进"。

这对生产环境部署来说是关键。如果你在做面向用户的 AI 应用,模型被 prompt injection 搞崩是真实的安全风险。这个改进比跑分提升更有实际价值。

3. 90% 的成本可以被省掉

3/3/15 已经很便宜了。但配合 prompt caching(提示缓存)可以再省 90%batch processing(批处理)可以再省 50%

算一下:如果你大量使用 prompt caching,实际输入成本可以低到 $0.3 per million tokens。这个价格几乎可以忽略不计了。对于需要大规模部署 AI 的公司来说,成本墙正在消失。


定价没变,但格局变了

Sonnet 4.6 的价格和上代 Sonnet 持平:3/3/15。但能力从"中端"跳到了"准旗舰"。

这是 AI 行业的摩尔定律在起作用:同样的价格,每隔几个月能买到的智能就翻一倍。 对于还在纠结"用不用 AI"的公司来说,犹豫的成本越来越高了 — 不是因为 AI 变贵了,恰恰是因为 AI 变便宜了,你的竞争对手会先用上。


一句话带走

Opus 4.6 证明了 AI 能做什么,Sonnet 4.6 证明了做到这些不需要多贵。当前沿智能变成默认配置,真正的竞争才刚开始。

你日常工作用 Sonnet 够了,还是必须上 Opus?这个选择本身就很说明问题。评论区聊聊。


关注本号,第一时间解读 Anthropic 最新动态。