凌晨炸裂更新!Claude Sonnet 4.5 来了:号称"世界最强编程模型",Agent 能力狂飙

388 阅读3分钟

2025 年 9 月 30 日凌晨,Anthropic 悄无声息地扔出了一枚重磅炸弹——Claude Sonnet 4.5 正式上线。

如果你今天早上打开 Claude Code 或官网,会发现界面已经焕然一新,模型选项里静静躺着这个新名字。没有发布会,没有倒计时,就这么突然出现了。但它带来的提升,绝不是"版本号 +0.5"那么简单。

编程能力登顶 SWE-bench,Agent 专注时长突破 30 小时,OSWorld 基准暴涨近 50% ——这些数字背后,是 Claude 在"AI 写代码"这件事上的又一次进化。

虽然 Claude Code 的新界面还有点小 bug(比如偶尔卡顿、Checkpoints 同步慢,我会贴图),但这丝毫不影响 Sonnet 4.5 本身的炸裂表现。

claude code上已经更新了:

image.png

官网的模型也更新了:

image.png


🎯 Claude Sonnet 4.5 到底是什么?不止是"版本升级"

如果你只把 Sonnet 4.5 理解为"上一代的增强版",那你可能漏掉了它真正颠覆的部分。

Claude Sonnet 4.5 是一个:

  • 世界级编程模型,在代码生成、调试、重构上超越所有竞品
  • 最强 Agent 构建能力,能够处理超过 30 小时的复杂任务并保持专注
  • 最会"用电脑"的 AI,在 OSWorld 基准测试中得分 61.4%(从 42.2% 提升)
  • 最对齐的前沿模型,减少了谄媚、欺骗、权力追求等有害行为

简单说:Claude Sonnet 4.5 就像是 AI 编程助手界的「GPT-4 → GPT-4 Turbo」级别飞跃,更强,更聪明,更可靠。

image.png

image.png

image.png

🧩 Claude Sonnet 4.5 的几个核心亮点

1. 编程能力:SWE-bench 榜首,实战碾压

在软件工程基准测试 SWE-bench Verified 上,Claude Sonnet 4.5 达到了业界领先水平。

这意味着什么?

  • 它能够理解复杂的代码库结构
  • 准确定位 bug 并提出修复方案
  • 重构代码时保持逻辑一致性
  • 生成可直接运行的生产级代码

对比 GPT-4、Gemini 等竞品,Claude Sonnet 4.5 在真实开发场景中的表现更加稳定和可靠。

[图片占位符:SWE-bench 性能对比图]


2. Agent 能力:超过 30 小时的任务专注力

传统 AI 模型在处理长任务时容易"跑偏"或"遗忘"上下文。Claude Sonnet 4.5 打破了这个限制,官方号称:

  • 能够持续专注超过 30 小时的复杂任务
  • 在 OSWorld 基准测试中得分 61.4%(比上一代提升近 50%)
  • 适合构建需要长时间运行的自动化 Agent

大家可以去试一下


3. 推理与数学:多领域准确性提升

Claude Sonnet 4.5 在推理和数学能力上也有显著提升:

  • 金融、法律、医学、STEM 等领域的准确性全面提高
  • 在安全应用中,漏洞分析时间减少 44%
  • 更适合处理需要逻辑推理和领域知识的复杂问题

这意味着它不只是"写代码快",而是"理解得更深"。


4. Claude Code & VS Code 原生扩展:开发体验升级

随着 Sonnet 4.5 发布,Claude Code 也迎来了重大更新:

  • Checkpoints 功能:保存代码状态,方便回溯和版本对比
  • VS Code 原生扩展:直接在编辑器中使用 Claude
  • 上下文编辑和内存工具:更智能地理解项目结构
  • 代码执行和文件创建:在 Claude 应用中直接运行代码

不过,目前 Claude Code 的交互界面还有一些小 bug(比如偶尔加载慢、Checkpoints 不同步等),我会在下面贴图说明。

这是新的界面:

image.png

但是bug还是有点多,比如下面的:

image.png

还有很多别的bug,比如打字按回车选中直接发出去了,还有些别的,很影响使用体验,建议大家可以先撤回之前的版本后面完善了再更新。

🔗 相关链接


P.S. 如果你已经在用 Claude Code,默认就是最新的版本了,但是界面还有些小 bug。