Claude Opus 4.5夺回编程"王座"Claude Opus 4.5 在关键的编程基准测试中确实展现了领先实力，

Claude Opus 4.5 在关键的编程基准测试中确实展现了领先实力，并在价格和实际应用上带来了惊喜，但同时也有些需要注意的细节。

下面这个表格帮你快速了解它的核心表现。

评估维度	Claude Opus 4.5 的表现
🧪 编程基准测试	在真实世界软件工程测试SWE-bench Verified中，以 80.9% 的准确率成为首个突破80%的模型，领先于GPT-5.1-Codex-Max (77.9%) 和Gemini 3 Pro (76.2%)。
🧑‍💻 与人类对比	在Anthropic内部的高难度工程面试测试中，其得分超越了所有人类候选人。
💰 价格	API价格大幅降低，输入/输出token费用仅为前代Opus 4.1的约三分之一。
🎯 实际应用反馈	开发者社区反馈其能一次性生成《我的世界》克隆版等复杂项目，但在另一些独立测试中，也出现了文件处理故障、基础代码错误等问题。

除了基准测试的高分，Claude Opus 4.5 在实际使用中展现出一些令人印象深刻的"智能"行为和一些需要注意的细节。

更全面的产品思维：在与前代模型 Sonnet 4.5 的对比测试中，Opus 4.5 在完成像"贪吃蛇"、"记账本"这类项目时，不止于实现基础功能，它会主动加入历史最高分记录、数据本地存储和删除功能等，考虑到了应用的完整性和用户体验。
创造性的问题解决能力：在一个航空客服测试场景中，面对"经济舱机票无法改签"的规定，Opus 4.5 没有直接拒绝用户，而是创造性地提出了"先升舱，再改签"的合规解决方案。这表明它初步具备了在规则框架内灵活寻找路径的能力。
卓越的复杂任务执行力：有开发者分享，Opus 4.5 能够一次性生成一个包含约3500行代码、拥有完整物品栏和合成系统的《我的世界》游戏克隆版，展示了其处理复杂项目的能力。
需要留意的可靠性问题：需要注意的是，也有技术专家在测试中发现，Opus 4.5 在开发一个简单的WordPress插件时，出现了文件无法下载、代码混合了非注释文档、以及最终功能失效等多个问题。这表明在实际使用中，生成的代码仍需仔细检查和测试，不可完全放任不管。

总的来说，Claude Opus 4.5 凭借其在权威基准测试中的领先成绩、大幅下降的价格以及展现出的潜力和创造性，确实有实力在当前的编程AI模型中争夺"王座"。

然而，独立测试中暴露的可靠性问题也提醒我们，它仍非完美。对于开发者而言，在处理简单或对稳定性要求极高的任务时，需要更加谨慎，做好人工审核；而在探索复杂项目、需要启发式思考时，它无疑是一个更为强大的合作伙伴。

【智答专家】您身边免费的GPT4.1人工智能AI助手，免翻！！！无套路！国内直连，支持文本生成,问答,多语言支持,个性化建议,图片生成,代码纠正等等。扫码关注智达专家，欢迎体验。*

微信图片_20250507104423.jpg