Anthropic发布Haiku 4.5，性能追平Sonnet 4，价格降到1/3，小模型卷疯了Anthropic发布H

大家好，我是子昕，一个干了10年的后端开发，现在在AI编程这条路上边冲边摸索，每天都被新技术追着跑。

半年前还是旗舰的性能，现在用最小号模型就能拿到，还只要1/3的价格。

这就是Anthropic昨天发布的Haiku 4.5。

一组关键数据

先看硬核数据：

SWE-Bench Verified：73.3%，持平Sonnet 4的72.7%

Terminal-Bench：41%，跟Sonnet 4、GPT-5同一水平

OSWorld（电脑操作任务）：50.7%，超过Sonnet 4的42.2%

定价：输入5/百万token——是Sonnet 4的1/3

速度：比Sonnet 4.5快4-5倍

Augment的代理编程评测显示，Haiku 4.5达到Sonnet 4.5性能的90%

这组数据意味着什么？

5个月前的Sonnet 4发布时是state-of-the-art。现在你用最便宜的模型，就能拿到当时的顶级体验，成本还降了三分之二。

Claude Code已接入，响应速度肉眼可见

Claude Code已经接入Haiku 4.5。

对多代理项目和快速原型开发来说，响应速度提升很明显。

之前用Sonnet写代码，总会有那么一两秒的等待。现在Haiku 4.5的延迟基本感觉不到。写过代码的都知道，这种流畅度对体验影响有多大。

Windsurf CEO Jeff Want说：“历史上，模型都在速度、成本和质量之间做牺牲。Haiku 4.5模糊了这个界限。”

说实话，这个评价不夸张。

多模型协作：一个值得关注的趋势

Anthropic建议用Sonnet 4.5做规划，然后用多个Haiku 4.5并行执行子任务。

这个思路挺有意思。

大模型负责复杂推理和架构设计，小模型负责具体执行。既保证了质量，又控制了成本。

Anthropic的CPO Mike Krieger举了个例子：在金融场景里，Haiku 4.5可以监控数千条数据流（监管变化、市场信号等），然后把洞察传给Sonnet 4.5做深度预测建模。

这种编队作战的方式，可能会成为未来AI应用的标配。

不过目前还在早期阶段，实际效果还得看。

一些反常识的发现

在幻灯片文本生成任务上，Haiku 4.5的指令遵循准确率达到65%，而Sonnet 4.5只有44%。

小模型在某些任务上反而比大模型强，这个结果挺意外的。

安全性方面，Haiku 4.5被评为ASL-2级别，比Sonnet 4.5和Opus 4.1的ASL-3更低。在自动对齐评估中，Haiku 4.5的不当行为率显著低于其他两个模型。

小模型更安全，这个逻辑倒是说得通——行为空间越受限，出问题的概率越低。

成本账：值不值得切换？

对个人开发者和小团队来说，成本降低2/3不是小数。

假设你每个月API调用消耗在几百刀，切到Haiku 4.5能省一大半。性能还能保持在Sonnet 4的水平。

Anthropic开发者关系负责人Alex Albert说：“我特别兴奋的是，Sonnet 4这个智能水平，现在价格在5个月内降了3倍。这是AI这几年一直承诺的事情，现在我们真实看到了。”

这个趋势确实值得关注。AI能力在快速商品化。去年还是奢侈品的能力，今年就成了标配。

一些实际考虑

Haiku 4.5比Haiku 3.5略贵（3.5是4，4.5是5），但性能提升是质的飞跃。

值得注意的是，Haiku 4.5是第一个支持推理模式的Haiku模型，上下文窗口20万token，最大输出6.4万token（3.5只有8192）。

System Card里提到一个细节：Anthropic训练Haiku 4.5时，让模型明确感知已使用的上下文窗口大小。这样模型在接近限制时会主动收尾，在距离限制较远时会持续推理。这个方法有效缓解了代理偷懒问题（过早停止工作、给出不完整答案、走捷径）。

这些细节优化，在实际使用中确实能感觉到。

Anthropic的节奏

8月Opus 4.1，9月Sonnet 4.5，10月Haiku 4.5。A

nthropic这两个月的发布节奏确实很猛。

Alex Albert解释说，过去一年公司都聚焦在提升前沿模型上，现在终于有精力做Haiku了。

Anthropic目前估值1830亿美元，年营收接近70亿美元，服务超过30万企业客户。但OpenAI估值5000亿美元。这个差距还是挺大的。

能感觉到Anthropic在追赶，但策略还算清晰——不拼噱头，专注产品。

我的判断

用了一天，几个真实感受：

速度确实快。 之前Sonnet的lag感基本没了，体验提升明显。

编程能力够用。 日常业务代码、重构、debug完全hold得住。复杂的系统设计可能还是要上Sonnet，但常规任务Haiku足够。

省钱。 对预算有限的团队来说，这是实实在在的成本优化。

多模型协作值得试。 Sonnet 4.5配Haiku 4.5的组合，可能会成为新的标准配置。