Anthropic发布Haiku 4.5,性能追平Sonnet 4,价格降到1/3,小模型卷疯了

153 阅读4分钟

大家好,我是子昕,一个干了10年的后端开发,现在在AI编程这条路上边冲边摸索,每天都被新技术追着跑。

半年前还是旗舰的性能,现在用最小号模型就能拿到,还只要1/3的价格。

这就是Anthropic昨天发布的Haiku 4.5。

一组关键数据

先看硬核数据:

图片

SWE-Bench Verified:73.3%,持平Sonnet 4的72.7%

Terminal-Bench:41%,跟Sonnet 4、GPT-5同一水平

OSWorld(电脑操作任务):50.7%,超过Sonnet 4的42.2%

定价:输入5/百万token——是Sonnet 4的1/3

速度:比Sonnet 4.5快4-5倍

Augment的代理编程评测显示,Haiku 4.5达到Sonnet 4.5性能的90%

这组数据意味着什么?

5个月前的Sonnet 4发布时是state-of-the-art。现在你用最便宜的模型,就能拿到当时的顶级体验,成本还降了三分之二

Claude Code已接入,响应速度肉眼可见

图片

Claude Code已经接入Haiku 4.5。

对多代理项目和快速原型开发来说,响应速度提升很明显。

之前用Sonnet写代码,总会有那么一两秒的等待。现在Haiku 4.5的延迟基本感觉不到。写过代码的都知道,这种流畅度对体验影响有多大。

Windsurf CEO Jeff Want说:“历史上,模型都在速度、成本和质量之间做牺牲。Haiku 4.5模糊了这个界限。”

说实话,这个评价不夸张。

多模型协作:一个值得关注的趋势

Anthropic建议用Sonnet 4.5做规划,然后用多个Haiku 4.5并行执行子任务。

这个思路挺有意思。

大模型负责复杂推理和架构设计,小模型负责具体执行。既保证了质量,又控制了成本。

Anthropic的CPO Mike Krieger举了个例子:在金融场景里,Haiku 4.5可以监控数千条数据流(监管变化、市场信号等),然后把洞察传给Sonnet 4.5做深度预测建模。

这种编队作战的方式,可能会成为未来AI应用的标配。

不过目前还在早期阶段,实际效果还得看。

一些反常识的发现

在幻灯片文本生成任务上,Haiku 4.5的指令遵循准确率达到65%,而Sonnet 4.5只有44%。

小模型在某些任务上反而比大模型强,这个结果挺意外的。

安全性方面,Haiku 4.5被评为ASL-2级别,比Sonnet 4.5和Opus 4.1的ASL-3更低。在自动对齐评估中,Haiku 4.5的不当行为率显著低于其他两个模型。

小模型更安全,这个逻辑倒是说得通——行为空间越受限,出问题的概率越低。

成本账:值不值得切换?

对个人开发者和小团队来说,成本降低2/3不是小数。

假设你每个月API调用消耗在几百刀,切到Haiku 4.5能省一大半。性能还能保持在Sonnet 4的水平。

Anthropic开发者关系负责人Alex Albert说:“我特别兴奋的是,Sonnet 4这个智能水平,现在价格在5个月内降了3倍。这是AI这几年一直承诺的事情,现在我们真实看到了。”

这个趋势确实值得关注。AI能力在快速商品化。去年还是奢侈品的能力,今年就成了标配。

一些实际考虑

Haiku 4.5比Haiku 3.5略贵(3.5是4,4.5是5),但性能提升是质的飞跃。

值得注意的是,Haiku 4.5是第一个支持推理模式的Haiku模型,上下文窗口20万token,最大输出6.4万token(3.5只有8192)。

System Card里提到一个细节:Anthropic训练Haiku 4.5时,让模型明确感知已使用的上下文窗口大小。这样模型在接近限制时会主动收尾,在距离限制较远时会持续推理。这个方法有效缓解了代理偷懒问题(过早停止工作、给出不完整答案、走捷径)。

这些细节优化,在实际使用中确实能感觉到。

Anthropic的节奏

8月Opus 4.1,9月Sonnet 4.5,10月Haiku 4.5。A

nthropic这两个月的发布节奏确实很猛。

Alex Albert解释说,过去一年公司都聚焦在提升前沿模型上,现在终于有精力做Haiku了。

Anthropic目前估值1830亿美元,年营收接近70亿美元,服务超过30万企业客户。但OpenAI估值5000亿美元。这个差距还是挺大的。

能感觉到Anthropic在追赶,但策略还算清晰——不拼噱头,专注产品。

我的判断

用了一天,几个真实感受:

速度确实快。  之前Sonnet的lag感基本没了,体验提升明显。

编程能力够用。  日常业务代码、重构、debug完全hold得住。复杂的系统设计可能还是要上Sonnet,但常规任务Haiku足够。

省钱。  对预算有限的团队来说,这是实实在在的成本优化。

多模型协作值得试。  Sonnet 4.5配Haiku 4.5的组合,可能会成为新的标准配置。

这周末正好有空,准备拿几个项目试试Sonnet 4.5 + Haiku 4.5多代理协作,看看实际效果。