Claude Sonnet 4.5 发布：官宣地表最强编码模型，支持连续自主编码超 30 小时！在十一假期前夕，大模型领

在十一假期前夕，大模型领域再度掀起“内卷”风暴！Anthropic 官方于近日正式发布 Claude Sonnet 4.5，并宣称其为“世界上最好的编码模型”。最引人注目的是，该模型在复杂任务中可连续自主编码超过 30 小时，远超此前 GPT-5 Codex 的 7 小时纪录，标志着 AI 智能体在长时间任务执行能力上的重大突破。

在这里插入图片描述

发布当天就有200多万人查看这个帖子在这里插入图片描述

一、性能跃升：SOTA 级别的现实编码能力

Claude Sonnet 4.5 在多个权威基准测试中表现卓越：

SWE-bench（现实世界软件工程能力评估）：达到当前 SOTA（State-of-the-Art）水平。
OSWorld（真实计算机操作任务基准）：准确率从 Sonnet 4 的 42.2% 跃升至 61.4%，仅用四个月实现近 20 个百分点的提升。
在 推理、数学、金融、法律、医学及 STEM 领域，Sonnet 4.5 相比包括 Opus 4.1 在内的旧模型，展现出显著更强的专业知识理解与逻辑推理能力。

Anthropic 表示，Sonnet 4.5 是其“迄今为止对齐最好、能力最强”的前沿模型。

在这里插入图片描述

二、开发者利器：Claude Code 全面升级

为支持开发者高效构建复杂智能体，Anthropic 同步推出多项产品级功能更新：

✅ 检查点（Checkpoint）功能

用户可随时保存编码进度，并一键回滚至任意历史状态——这是社区呼声最高的功能之一。

✅ 原生 VS Code 扩展 + 终端界面优化

支持在 VS Code 中直接调用 Claude 智能体。
终端交互体验全面重构，提升命令执行与反馈效率。

✅ Claude API 新增能力

上下文编辑：智能体可动态修改历史上下文。
记忆工具：支持长期任务中的状态保持与知识积累，为 30+ 小时连续运行提供底层支撑。

✅ 应用内集成代码执行与文件生成

用户可在对话中直接创建：

电子表格（.xlsx）
幻灯片（.pptx）
文档（.docx）
可执行脚本

所有操作无需跳出对话界面，真正实现“对话即开发”。

三、Claude Agent SDK：开放智能体构建能力

Anthropic 同步开源其内部用于构建 Claude Code 的核心框架——Claude Agent SDK。该 SDK 解决了三大关键挑战：

长时间任务中的内存管理
用户控制权与智能体自主性的平衡
多子智能体协同目标对齐

开发者现可基于此 SDK 构建适用于编码、数据分析、自动化运维等场景的定制化 AI 智能体。

四、安全与对齐：ASL-3 级防护体系

Claude Sonnet 4.5 在提升能力的同时，大幅强化安全性：

采用 AI 安全等级 3（ASL-3） 发布框架。
内置分类器过滤器，主动拦截涉及化学、生物、放射性等高风险内容。
显著减少“谄媚”“欺骗”“权力寻求”等不良行为。
首次引入机制可解释性技术进行安全性评估（详见系统卡）。

为避免误拦截，用户仍可无缝切换回 Sonnet 4 继续对话。

五、彩蛋：Imagine with Claude（实验预览）

Anthropic 还推出一项实验性功能——Imagine with Claude：
用户仅需口头描述需求（如“做一个能分析股票趋势的网页应用”），Claude 即可实时生成完整可运行软件，无需预设功能或编写任何初始代码。

结语

Claude Sonnet 4.5 不仅是一次模型迭代，更是 AI 智能体迈向“长期自主任务执行”的关键里程碑。30 小时连续编码能力的背后，是内存管理、任务规划、安全对齐与人机协作的系统性突破。对于开发者而言，这或许意味着：未来的软件，将由你和 AI 共同“生长”出来。

技术浪潮奔涌，唯有躬身入局者，方能定义未来。