大家好,我是子昕,一个干了10年的后端开发,现在在AI编程这条路上边冲边摸索,每天都被新技术追着跑。
半年前还是旗舰的性能,现在用最小号模型就能拿到,还只要1/3的价格。
这就是Anthropic昨天发布的Haiku 4.5。
一组关键数据
先看硬核数据:
SWE-Bench Verified:73.3%,持平Sonnet 4的72.7%
Terminal-Bench:41%,跟Sonnet 4、GPT-5同一水平
OSWorld(电脑操作任务):50.7%,超过Sonnet 4的42.2%
定价:输入5/百万token——是Sonnet 4的1/3
速度:比Sonnet 4.5快4-5倍
Augment的代理编程评测显示,Haiku 4.5达到Sonnet 4.5性能的90%
这组数据意味着什么?
5个月前的Sonnet 4发布时是state-of-the-art。现在你用最便宜的模型,就能拿到当时的顶级体验,成本还降了三分之二。
Claude Code已接入,响应速度肉眼可见
Claude Code已经接入Haiku 4.5。
对多代理项目和快速原型开发来说,响应速度提升很明显。
之前用Sonnet写代码,总会有那么一两秒的等待。现在Haiku 4.5的延迟基本感觉不到。写过代码的都知道,这种流畅度对体验影响有多大。
Windsurf CEO Jeff Want说:“历史上,模型都在速度、成本和质量之间做牺牲。Haiku 4.5模糊了这个界限。”
说实话,这个评价不夸张。
多模型协作:一个值得关注的趋势
Anthropic建议用Sonnet 4.5做规划,然后用多个Haiku 4.5并行执行子任务。
这个思路挺有意思。
大模型负责复杂推理和架构设计,小模型负责具体执行。既保证了质量,又控制了成本。
Anthropic的CPO Mike Krieger举了个例子:在金融场景里,Haiku 4.5可以监控数千条数据流(监管变化、市场信号等),然后把洞察传给Sonnet 4.5做深度预测建模。
这种编队作战的方式,可能会成为未来AI应用的标配。
不过目前还在早期阶段,实际效果还得看。
一些反常识的发现
在幻灯片文本生成任务上,Haiku 4.5的指令遵循准确率达到65%,而Sonnet 4.5只有44%。
小模型在某些任务上反而比大模型强,这个结果挺意外的。
安全性方面,Haiku 4.5被评为ASL-2级别,比Sonnet 4.5和Opus 4.1的ASL-3更低。在自动对齐评估中,Haiku 4.5的不当行为率显著低于其他两个模型。
小模型更安全,这个逻辑倒是说得通——行为空间越受限,出问题的概率越低。
成本账:值不值得切换?
对个人开发者和小团队来说,成本降低2/3不是小数。
假设你每个月API调用消耗在几百刀,切到Haiku 4.5能省一大半。性能还能保持在Sonnet 4的水平。
Anthropic开发者关系负责人Alex Albert说:“我特别兴奋的是,Sonnet 4这个智能水平,现在价格在5个月内降了3倍。这是AI这几年一直承诺的事情,现在我们真实看到了。”
这个趋势确实值得关注。AI能力在快速商品化。去年还是奢侈品的能力,今年就成了标配。
一些实际考虑
Haiku 4.5比Haiku 3.5略贵(3.5是4,4.5是5),但性能提升是质的飞跃。
值得注意的是,Haiku 4.5是第一个支持推理模式的Haiku模型,上下文窗口20万token,最大输出6.4万token(3.5只有8192)。
System Card里提到一个细节:Anthropic训练Haiku 4.5时,让模型明确感知已使用的上下文窗口大小。这样模型在接近限制时会主动收尾,在距离限制较远时会持续推理。这个方法有效缓解了代理偷懒问题(过早停止工作、给出不完整答案、走捷径)。
这些细节优化,在实际使用中确实能感觉到。
Anthropic的节奏
8月Opus 4.1,9月Sonnet 4.5,10月Haiku 4.5。A
nthropic这两个月的发布节奏确实很猛。
Alex Albert解释说,过去一年公司都聚焦在提升前沿模型上,现在终于有精力做Haiku了。
Anthropic目前估值1830亿美元,年营收接近70亿美元,服务超过30万企业客户。但OpenAI估值5000亿美元。这个差距还是挺大的。
能感觉到Anthropic在追赶,但策略还算清晰——不拼噱头,专注产品。
我的判断
用了一天,几个真实感受:
速度确实快。 之前Sonnet的lag感基本没了,体验提升明显。
编程能力够用。 日常业务代码、重构、debug完全hold得住。复杂的系统设计可能还是要上Sonnet,但常规任务Haiku足够。
省钱。 对预算有限的团队来说,这是实实在在的成本优化。
多模型协作值得试。 Sonnet 4.5配Haiku 4.5的组合,可能会成为新的标准配置。
这周末正好有空,准备拿几个项目试试Sonnet 4.5 + Haiku 4.5多代理协作,看看实际效果。