2025 年 9 月 30 日凌晨,Anthropic 悄无声息地扔出了一枚重磅炸弹——Claude Sonnet 4.5 正式上线。
如果你今天早上打开 Claude Code 或官网,会发现界面已经焕然一新,模型选项里静静躺着这个新名字。没有发布会,没有倒计时,就这么突然出现了。但它带来的提升,绝不是"版本号 +0.5"那么简单。
编程能力登顶 SWE-bench,Agent 专注时长突破 30 小时,OSWorld 基准暴涨近 50% ——这些数字背后,是 Claude 在"AI 写代码"这件事上的又一次进化。
虽然 Claude Code 的新界面还有点小 bug(比如偶尔卡顿、Checkpoints 同步慢,我会贴图),但这丝毫不影响 Sonnet 4.5 本身的炸裂表现。
claude code上已经更新了:
官网的模型也更新了:
🎯 Claude Sonnet 4.5 到底是什么?不止是"版本升级"
如果你只把 Sonnet 4.5 理解为"上一代的增强版",那你可能漏掉了它真正颠覆的部分。
Claude Sonnet 4.5 是一个:
- 世界级编程模型,在代码生成、调试、重构上超越所有竞品
- 最强 Agent 构建能力,能够处理超过 30 小时的复杂任务并保持专注
- 最会"用电脑"的 AI,在 OSWorld 基准测试中得分 61.4%(从 42.2% 提升)
- 最对齐的前沿模型,减少了谄媚、欺骗、权力追求等有害行为
简单说:Claude Sonnet 4.5 就像是 AI 编程助手界的「GPT-4 → GPT-4 Turbo」级别飞跃,更强,更聪明,更可靠。
🧩 Claude Sonnet 4.5 的几个核心亮点
1. 编程能力:SWE-bench 榜首,实战碾压
在软件工程基准测试 SWE-bench Verified 上,Claude Sonnet 4.5 达到了业界领先水平。
这意味着什么?
- 它能够理解复杂的代码库结构
- 准确定位 bug 并提出修复方案
- 重构代码时保持逻辑一致性
- 生成可直接运行的生产级代码
对比 GPT-4、Gemini 等竞品,Claude Sonnet 4.5 在真实开发场景中的表现更加稳定和可靠。
[图片占位符:SWE-bench 性能对比图]
2. Agent 能力:超过 30 小时的任务专注力
传统 AI 模型在处理长任务时容易"跑偏"或"遗忘"上下文。Claude Sonnet 4.5 打破了这个限制,官方号称:
- 能够持续专注超过 30 小时的复杂任务
- 在 OSWorld 基准测试中得分 61.4%(比上一代提升近 50%)
- 适合构建需要长时间运行的自动化 Agent
大家可以去试一下
3. 推理与数学:多领域准确性提升
Claude Sonnet 4.5 在推理和数学能力上也有显著提升:
- 金融、法律、医学、STEM 等领域的准确性全面提高
- 在安全应用中,漏洞分析时间减少 44%
- 更适合处理需要逻辑推理和领域知识的复杂问题
这意味着它不只是"写代码快",而是"理解得更深"。
4. Claude Code & VS Code 原生扩展:开发体验升级
随着 Sonnet 4.5 发布,Claude Code 也迎来了重大更新:
- Checkpoints 功能:保存代码状态,方便回溯和版本对比
- VS Code 原生扩展:直接在编辑器中使用 Claude
- 上下文编辑和内存工具:更智能地理解项目结构
- 代码执行和文件创建:在 Claude 应用中直接运行代码
不过,目前 Claude Code 的交互界面还有一些小 bug(比如偶尔加载慢、Checkpoints 不同步等),我会在下面贴图说明。
这是新的界面:
但是bug还是有点多,比如下面的:
还有很多别的bug,比如打字按回车选中直接发出去了,还有些别的,很影响使用体验,建议大家可以先撤回之前的版本后面完善了再更新。
🔗 相关链接
P.S. 如果你已经在用 Claude Code,默认就是最新的版本了,但是界面还有些小 bug。