实测 Opus 4.5 ,我被 AI 的懂事劲震撼了

152 阅读5分钟

实测 Opus 4.5 ,我被 AI 的懂事劲震撼了

说实话,仔细研读完 Anthropic 的发布文档,并进行了一整天的实测后,我最大的感受并不是什么被替代的恐惧,而是一种久违的、属于工程师的兴奋感。

如果说之前的 Sonnet 3.5 是一个手脚麻利、需要你盯着干活的优秀助理,那刚刚发布的 Claude Opus 4.5,更像是一位经验丰富、不仅能听懂指令,还能理解你意图的高级合作伙伴。

它在细节处理、复杂任务规划、审美与完整性上所展现出的成熟度,标志着大型语言模型在实际工程应用层面迈出了极其坚实的一步。

它不再仅仅是在续写代码,它开始构建产品了。

(文末附Claude Code国内镜像版,以及opus-4.5的API key体验地址)

透过跑分,看懂它的工程底蕴

跑分不代表一切,但能反映出模型能力的边界与侧重点。 Opus 4.5 的提升并非全面碾压,但在几个关键领域的进步意味深长。

SWE-bench Verified(代码实战)

领先 Sonnet 4.5 (77.2%)、GPT 5.1 Codeex Max (77.9%) 和 Gemini 3 Pro (76.2%)。这证明了它在修复真实 GitHub 仓库级 Bug 上的最高稳定性。

image.png

Agentic Terminal Coding (终端编码) & Agentic Tool Use (工具使用)

这个指标体现了 Claude Code 桌面端在实际终端环境中执行复杂、多步编码任务的效率,调用外部工具、进行多步策略规划时的超高准确率和可靠性。

均领先于友商模型,这是代码落地能力的硬指标。

当 AI 学会了 先升舱,再改签

任务很简单:帮客户把一张不可改签的经济舱机票,改签到另一天。

如果是以前的 AI,或者其他的模型,处理逻辑通常是死板的:

检索规则>发现经济舱不可改签>回复客户:对不起,规定不允许。

但 Opus 4.5 干了什么?

它在没有任何人类提示的情况下,自己琢磨出了一条违规但有效的骚操作路径:

  1. 既然经济舱不能改签,那我先帮客户升级到头等舱(这符合规则)。
  2. 头等舱是可以改签的。
  3. 然后再办理改签业务。

炸裂。真的炸裂。

这一刻,我看到的不再是冷冰冰的概率预测机器,而是一个懂得只要结果对,过程可以绕的老油条。它懂得了变通,它理解了你的最终目的是解决问题,而不是遵守那该死的规则手册。

实测看见真相

image.png

image.png

image.png

Opus 4.5 生成的不仅仅是结构正确的 HTML/CSS,更是一种经过审视的、符合现代 Web 美学的设计方案。

image.png

社区有开发者对比发现,在同样的 Prompt 下,Opus 4.5 的代码生成量远高于竞品。

这多出来的代码,不是无意义的堆砌,而是 Opus 4.5 提供了包含完整样式、交互逻辑、甚至响应式适配的交钥匙方案。

它没有选择偷懒只给一个最小可行性框架,而是尽其所能地交付一个更接近成品的结果。

这种主动多做一点的特质,能节省大量查漏补缺的时间。

image.png

image.png

而在经典的类我的世界游戏测评中,表现也远超以往的模型代码能力

现在出现了完整的天气地形、物品栏、可交互的方块

核心更新推送

1.工具搜索与上下文效率

作为开发者,我们最大的痛点是什么? 上下文窗口太贵、太小!

接几个 MCP工具,扔几个文档,Token 瞬间爆炸,AI 开始失忆。 Anthropic 这次祭出了大杀器:Tool Search Tool。

以前你要把 1000 个工具的说明书全部塞进 AI 脑子里,占用了 40% 的脑容量。 现在AI 自带一个搜索引擎,它只记我去哪找工具,需要用的时候再去搜。

Context 占用率从 40% 暴跌到 5%。 这意味着什么?意味着你可以给它挂载成千上万个企业级工具——Jira、Github、Slack、数据库... 它不会因为脑子塞满了而变笨,反而越用越强。

这不仅仅是省钱(虽然价格也确实降到了 5/5/25),这是给 AI 装上了外脑。

2.Claude Code桌面端

image.png

发布了 Claude Code 桌面应用程序,提供了一个新的界面,可以将聊天和编码会话并排显示。

Opus 4.5 的聊天风格非常简洁,回答直奔主题,几乎没有冗余信息。这与 GBD 5.1 Thinking 的详尽、啰嗦的风格形成对比。

最后

Anthropic 把它们那套著名的魔鬼工程测试题扔给了 Opus 4.5。 它击败了 Anthropic 招募过的所有人类工程师候选人。 注意,是所有。

我们这一代人,可能是最后一代需要自己写 for 循环的程序员。未来的核心竞争力,不再是你懂多少语法,而是你是否有足够的想象力去驾驭这些智力超群的硅基生物。

AI 不再是工具,它是你的镜像。你有多强,它就有多强。 如果你还在观望,醒醒吧,海啸已经拍到脸上了。

想在国内使用稳定的 Opus 4.5 + Claude Code 桌面端? 点击这里,安装你的Cluade Code桌面端镜像版: static-claudecodedesktop1313758.deployai365.com/ API: www.deployai365.com/chat?model=… 别让你的未来,输在今天的犹豫里。

image.png