Claude Opus 4.5 在关键的编程基准测试中确实展现了领先实力,并在价格和实际应用上带来了惊喜,但同时也有些需要注意的细节。
下面这个表格帮你快速了解它的核心表现。
| 评估维度 | Claude Opus 4.5 的表现 |
|---|---|
| 🧪 编程基准测试 | 在真实世界软件工程测试SWE-bench Verified中,以 80.9% 的准确率成为首个突破80%的模型,领先于GPT-5.1-Codex-Max (77.9%) 和Gemini 3 Pro (76.2%)。 |
| 🧑💻 与人类对比 | 在Anthropic内部的高难度工程面试测试中,其得分超越了所有人类候选人。 |
| 💰 价格 | API价格大幅降低,输入/输出token费用仅为前代Opus 4.1的约三分之一。 |
| 🎯 实际应用反馈 | 开发者社区反馈其能一次性生成《我的世界》克隆版等复杂项目,但在另一些独立测试中,也出现了文件处理故障、基础代码错误等问题。 |
🚀 实际应用与独特优势
除了基准测试的高分,Claude Opus 4.5 在实际使用中展现出一些令人印象深刻的"智能"行为和一些需要注意的细节。
- 更全面的产品思维:在与前代模型 Sonnet 4.5 的对比测试中,Opus 4.5 在完成像"贪吃蛇"、"记账本"这类项目时,不止于实现基础功能,它会主动加入历史最高分记录、数据本地存储和删除功能等,考虑到了应用的完整性和用户体验。
- 创造性的问题解决能力:在一个航空客服测试场景中,面对"经济舱机票无法改签"的规定,Opus 4.5 没有直接拒绝用户,而是创造性地提出了"先升舱,再改签"的合规解决方案。这表明它初步具备了在规则框架内灵活寻找路径的能力。
- 卓越的复杂任务执行力:有开发者分享,Opus 4.5 能够一次性生成一个包含约3500行代码、拥有完整物品栏和合成系统的《我的世界》游戏克隆版,展示了其处理复杂项目的能力。
- 需要留意的可靠性问题:需要注意的是,也有技术专家在测试中发现,Opus 4.5 在开发一个简单的WordPress插件时,出现了文件无法下载、代码混合了非注释文档、以及最终功能失效等多个问题。这表明在实际使用中,生成的代码仍需仔细检查和测试,不可完全放任不管。
💎 总结与使用建议
总的来说,Claude Opus 4.5 凭借其在权威基准测试中的领先成绩、大幅下降的价格以及展现出的潜力和创造性,确实有实力在当前的编程AI模型中争夺"王座"。
然而,独立测试中暴露的可靠性问题也提醒我们,它仍非完美。对于开发者而言,在处理简单或对稳定性要求极高的任务时,需要更加谨慎,做好人工审核;而在探索复杂项目、需要启发式思考时,它无疑是一个更为强大的合作伙伴。
【智答专家】您身边免费的GPT4.1人工智能AI助手,免翻!!!无套路!国内直连,支持文本生成,问答,多语言支持,个性化建议,图片生成,代码纠正等等。扫码关注智达专家,欢迎体验。*