Claude Sonnet 4.5 发布:官宣地表最强编码模型,支持连续自主编码超 30 小时!

175 阅读3分钟

在十一假期前夕,大模型领域再度掀起“内卷”风暴!Anthropic 官方于近日正式发布 Claude Sonnet 4.5,并宣称其为“世界上最好的编码模型”。最引人注目的是,该模型在复杂任务中可连续自主编码超过 30 小时,远超此前 GPT-5 Codex 的 7 小时纪录,标志着 AI 智能体在长时间任务执行能力上的重大突破。

在这里插入图片描述

在这里插入图片描述

发布当天就有200多万人查看这个帖子 在这里插入图片描述

一、性能跃升:SOTA 级别的现实编码能力

Claude Sonnet 4.5 在多个权威基准测试中表现卓越:

  • SWE-bench(现实世界软件工程能力评估):达到当前 SOTA(State-of-the-Art)水平
  • OSWorld(真实计算机操作任务基准):准确率从 Sonnet 4 的 42.2% 跃升至 61.4%,仅用四个月实现近 20 个百分点的提升。
  • 推理、数学、金融、法律、医学及 STEM 领域,Sonnet 4.5 相比包括 Opus 4.1 在内的旧模型,展现出显著更强的专业知识理解与逻辑推理能力。

Anthropic 表示,Sonnet 4.5 是其“迄今为止对齐最好、能力最强”的前沿模型。

在这里插入图片描述

二、开发者利器:Claude Code 全面升级

为支持开发者高效构建复杂智能体,Anthropic 同步推出多项产品级功能更新:

✅ 检查点(Checkpoint)功能

用户可随时保存编码进度,并一键回滚至任意历史状态——这是社区呼声最高的功能之一。

✅ 原生 VS Code 扩展 + 终端界面优化

  • 支持在 VS Code 中直接调用 Claude 智能体。
  • 终端交互体验全面重构,提升命令执行与反馈效率。

✅ Claude API 新增能力

  • 上下文编辑:智能体可动态修改历史上下文。
  • 记忆工具:支持长期任务中的状态保持与知识积累,为 30+ 小时连续运行提供底层支撑。

✅ 应用内集成代码执行与文件生成

用户可在对话中直接创建:

  • 电子表格(.xlsx)
  • 幻灯片(.pptx)
  • 文档(.docx)
  • 可执行脚本

所有操作无需跳出对话界面,真正实现“对话即开发”。

三、Claude Agent SDK:开放智能体构建能力

Anthropic 同步开源其内部用于构建 Claude Code 的核心框架——Claude Agent SDK。该 SDK 解决了三大关键挑战:

  1. 长时间任务中的内存管理
  2. 用户控制权与智能体自主性的平衡
  3. 多子智能体协同目标对齐

开发者现可基于此 SDK 构建适用于编码、数据分析、自动化运维等场景的定制化 AI 智能体。

image.png

四、安全与对齐:ASL-3 级防护体系

Claude Sonnet 4.5 在提升能力的同时,大幅强化安全性:

  • 采用 AI 安全等级 3(ASL-3) 发布框架。
  • 内置分类器过滤器,主动拦截涉及化学、生物、放射性等高风险内容。
  • 显著减少“谄媚”“欺骗”“权力寻求”等不良行为。
  • 首次引入机制可解释性技术进行安全性评估(详见系统卡)。

为避免误拦截,用户仍可无缝切换回 Sonnet 4 继续对话。 在这里插入图片描述

五、彩蛋:Imagine with Claude(实验预览)

Anthropic 还推出一项实验性功能——Imagine with Claude
用户仅需口头描述需求(如“做一个能分析股票趋势的网页应用”),Claude 即可实时生成完整可运行软件,无需预设功能或编写任何初始代码。


结语

Claude Sonnet 4.5 不仅是一次模型迭代,更是 AI 智能体迈向“长期自主任务执行”的关键里程碑。30 小时连续编码能力的背后,是内存管理、任务规划、安全对齐与人机协作的系统性突破。对于开发者而言,这或许意味着:未来的软件,将由你和 AI 共同“生长”出来

技术浪潮奔涌,唯有躬身入局者,方能定义未来。