Claude Opus 4.5夺回编程"王座"

88 阅读3分钟

Claude Opus 4.5 在关键的编程基准测试中确实展现了领先实力,并在价格和实际应用上带来了惊喜,但同时也有些需要注意的细节。

下面这个表格帮你快速了解它的核心表现。

评估维度Claude Opus 4.5 的表现
🧪 编程基准测试在真实世界软件工程测试SWE-bench Verified中,以 80.9% 的准确率成为首个突破80%的模型,领先于GPT-5.1-Codex-Max (77.9%) 和Gemini 3 Pro (76.2%)。
🧑‍💻 与人类对比在Anthropic内部的高难度工程面试测试中,其得分超越了所有人类候选人
💰 价格API价格大幅降低,输入/输出token费用仅为前代Opus 4.1的约三分之一
🎯 实际应用反馈开发者社区反馈其能一次性生成《我的世界》克隆版等复杂项目,但在另一些独立测试中,也出现了文件处理故障、基础代码错误等问题

🚀 实际应用与独特优势

除了基准测试的高分,Claude Opus 4.5 在实际使用中展现出一些令人印象深刻的"智能"行为和一些需要注意的细节。

  • 更全面的产品思维:在与前代模型 Sonnet 4.5 的对比测试中,Opus 4.5 在完成像"贪吃蛇"、"记账本"这类项目时,不止于实现基础功能,它会主动加入历史最高分记录、数据本地存储和删除功能等,考虑到了应用的完整性和用户体验
  • 创造性的问题解决能力:在一个航空客服测试场景中,面对"经济舱机票无法改签"的规定,Opus 4.5 没有直接拒绝用户,而是创造性地提出了"先升舱,再改签"的合规解决方案。这表明它初步具备了在规则框架内灵活寻找路径的能力
  • 卓越的复杂任务执行力:有开发者分享,Opus 4.5 能够一次性生成一个包含约3500行代码、拥有完整物品栏和合成系统的《我的世界》游戏克隆版,展示了其处理复杂项目的能力。
  • 需要留意的可靠性问题:需要注意的是,也有技术专家在测试中发现,Opus 4.5 在开发一个简单的WordPress插件时,出现了文件无法下载、代码混合了非注释文档、以及最终功能失效等多个问题。这表明在实际使用中,生成的代码仍需仔细检查和测试,不可完全放任不管。

💎 总结与使用建议

总的来说,Claude Opus 4.5 凭借其在权威基准测试中的领先成绩、大幅下降的价格以及展现出的潜力和创造性,确实有实力在当前的编程AI模型中争夺"王座"。

然而,独立测试中暴露的可靠性问题也提醒我们,它仍非完美。对于开发者而言,在处理简单或对稳定性要求极高的任务时,需要更加谨慎,做好人工审核;而在探索复杂项目、需要启发式思考时,它无疑是一个更为强大的合作伙伴。

【智答专家】您身边免费的GPT4.1人工智能AI助手,免翻!!!无套路!国内直连,支持文本生成,问答,多语言支持,个性化建议,图片生成,代码纠正等等。扫码关注智达专家,欢迎体验。*

微信图片_20250507104423.jpg