Opus 4.8上线:编程稳了,创作凉了,4.6没了!

7 阅读6分钟

周五凌晨,搞定公司最后一个工单,正准备下班。

手机一震,Claude的推送:Opus 4.8上线了。

紧接着另一条:Anthropic完成新一轮650亿美元融资,估值逼近万亿美元。

说实话,距离4月17号Opus 4.7上线,才过去42天。

一个半月,又一个新模型;Claude历史上从来没这么密集过。

看来GPT-5.5和Codex给的压力确实太大了。

Opus 4.7的口碑把自己拉完了,只能最快速度把Opus 4.8拉出来救火。

模型参数、上下文长度、输出长度,跟4.7几乎一样。

价格也没变,输入、25/M输出。

基本就是在4.7的基模上又调了一版。

然后,我突然反应过来一件事。

完了,你Opus 4.8上了,不会要把我的Opus 4.6顶掉吧?

做AI编程的人应该都懂,Opus 4.6是真的顺手。

代码质量稳、响应快、写Agent脚本的时候也靠谱。

Opus 4.7呢?体验下降了不少。

按照Claude只保留两代模型的传统,Opus 4.6大概率要被顶掉。

我抱着忐忑的心情一看。

果然,没了。

行吧,只能接受。

说不定Opus 4.8在编程和Agent上更好用呢?(虽然我确实不太抱希望。)

说回Opus 4.8本身。

跑分就不多说了,赢学,数字又高了一点。

唯一值得说的是Terminal-Bench 2.1。

这个测试是评估Agent在真实命令行环境里干活的能力,让它自己查文件、敲命令、看报错、调试,跨多个步骤完成任务。

Opus 4.8在这个测试上,没跑过GPT-5.5。

这个还挺要命的,Terminal-Bench基本代表着Agent开发能力的最高标准。

穷尽洪荒之力也没干过,只能说明GPT-5.5在开发能力上,确实强。

不过跑分归跑分,实际体感才是重点。

这次更新有几个比较重要的变化。

1. 思考强度给所有人开放了

之前effort(努力程度)控制只有Claude Code和Cowork用户能用,这次所有套餐都开放了,免费用户也有。

位置就在模型选择旁边,从Low到Max。

我自己常年开着Extra,干大活上Max。

Opus 4.7只有自适应思考,不太好控制,4.8终于把effort调回来了。

2. 它可能是第一个不偷懒的模型

这个是我觉得这次更新最大的亮点。

熟悉AI Coding的人都知道,AI有个通病:干活的时候嘴上说着没问题,实际上留了一堆坑。

代码跑一遍,看着没报错就跟你报告完成了,结果上了生产环境,各种边界条件没处理、异常没捕获,全是隐患。

你让它修,它说改好了,你再上,又出新问题;来来回回折腾好几轮,还不如自己从头来。

这次Opus 4.8重点优化了这个问题。

官方数据:代码瑕疵蒙混过关的概率,比上一代低了大概4倍。

我去翻了系统卡,发现更猛的数字:在“偷懒”这个问题上,Opus 4.8是唯一能做到0%不良率的模型。

趁着周末时间实测了一天,确实能感觉到。

我之前用Claude Code写一个Hermes Agent的自动化部署脚本。

4.7的时候跑一遍就跟我说“逻辑没问题”,结果实际部署的时候好几个边界条件没处理。

Opus 4.8不一样,它会非常详细地审查每一行代码,把所有可能出问题的地方都列出来,甚至主动提示“这段在生产环境可能会有并发问题”。

这种不偷懒的态度,对用久了Vibe Coding的人来说,太重要了。

因为我不用再花额外的时间去帮它擦屁股。

3. 更精确了,但也更“冷漠”了

**Opus 4.8有一个明显的变化:**更精确了,有点GPT-5.5的感觉,指哪打哪。

对专业开发者来说,这是好事;但同时有个副作用,主动性变弱了。

你让它干A,它就只干A,不会自作主张觉得“你是不是顺便也想要B”。

我自己就遇到了。

让Claude Code排查一个网络配置问题,之前4.6会主动去检查关联的安全策略和路由表,4.8就只看你指定的那个配置文件,不越雷池一步。

专业开发者觉得爽,因为可控性更强了。

但如果你是非技术背景的用户,这个变化可能不太友好。

因为我们很多人用AI,其实是靠着它的主动性在往前走的。

你随便描述两句,它就能领会你真正想要什么,三下五除二帮你搞出来。

说实话,用习惯了确实有点依赖。

只不过这种依赖有代价:猜准了确实省事,但猜偏了呢?

它按照自己的理解干了一堆你没要求的事,最后返工的活比当初自己干还多。

所以未来用Opus 4.8,对需求表达能力的要求更高了,你得学会把话说清楚。

4. Fast Mode大降价 + 动态工作流

Fast Mode之前就有,/fast就能用。

但之前太贵,2.5倍速度要6倍价格;这次降到标准版的2倍价格,速度没变。

马斯克的算力确实给到位了。

还有一个有意思的功能叫动态工作流(Dynamic Workflows)。

让Claude自己写一套编排脚本,一口气拉起几十个甚至上百个子Agent并行干活,干完自己先验一遍,没问题了再交给你。

对做大型项目迁移、跨几百个文件的批量修改,这个能力很强。

5. 还是有些遗憾的地方

在编程和Agent场景上,Opus 4.8确实进步了,这点我认可;不偷懒这一点就值回票价。

但有些场景下它太“按部就班”了。

你让它做一件事,它拆得很细、想得很周全,但就是少了点灵性。

之前Opus 4.6有时候会给你一些意想不到的好方案,4.8更多是稳扎稳打,不太有惊喜感。

不过话说回来,对于一个习惯用Claude Code写脚本、部署Agent的人来说,稳比灵性重要。

代码这东西,你不偷懒、不犯错,就已经赢了80%。

又爱又恨。

哦对了,Anthropic这次还留了个更大的钩子。

除了Opus这条线,他们手里还攥着一个比Opus智能更高一档的新模型。

代号Mythos,说过几周就能给所有客户用了。

到时候看看这个号称最牛的模型,到底什么水平。

AI这行,真有意思。