刚扒完Claude 4.5 Sonnet的发布细节,直接被这迭代速度惊到了!SWE-bench Verified登顶、OSWorld从42.2%飙到61.4%,这俩硬核评测数据摆在那儿,“最强编程模型”的头衔是真稳了。
最绝的是30小时持续干活的能力,上一代才7小时,居然能自己敲1.1万行代码搭完企业聊天应用,连数据库配置、域名注册都包了,这闭环能力简直是工程党的福音。更关键的是它开放了Agent SDK,把记忆管理、权限分配这些核心模块都放出来了,等于给开发者送了套造专属AI助手的脚手架。
性能拉满就算了,对齐性还做到了史上最高,防御提示注入的能力也升级了,这波是真的把“能用”和“好用”平衡住了。定价还没变,感觉接下来实验室的复杂工程任务能省不少 #大模型日报# 劲儿。
最绝的是30小时持续干活的能力,上一代才7小时,居然能自己敲1.1万行代码搭完企业聊天应用,连数据库配置、域名注册都包了,这闭环能力简直是工程党的福音。更关键的是它开放了Agent SDK,把记忆管理、权限分配这些核心模块都放出来了,等于给开发者送了套造专属AI助手的脚手架。
性能拉满就算了,对齐性还做到了史上最高,防御提示注入的能力也升级了,这波是真的把“能用”和“好用”平衡住了。定价还没变,感觉接下来实验室的复杂工程任务能省不少 #大模型日报# 劲儿。
展开
评论
点赞