我测试了GPT-5与Claude Code的对比，结果改变了我的工作流程Claude Code的“隐藏护城河”：GPT-

本周，我做了一件有些奇怪的事：尽管我的时间线上全是GPT-5的宣传和炒作，而且GPT-5便宜12倍，我还是买了Claude Max。

原因何在？在深入测试不同模型（Horizon Beta、Qwen3-Coder、GPT-OSS，当然还有GPT-5）与Claude Code路由的表现后，我发现了大多数开发者都忽略的一点。Claude Code有一个“隐藏护城河”，即便GPT-5具备博士级的推理能力和极具攻击性的定价，也无法跨越。

以下是我在这场测试马拉松中发现的。

本周，我们深入研究了不同模型在Claude Code界面中的表现。借助各种路由解决方案和OpenRouter集成，我尝试了所有可能：

规律很一致：非Anthropic的模型给出的回应简洁生硬、毫无帮助。“修复了bug。”“添加了错误处理。”“优化了函数。”

与此同时，Claude提供的是全面的、可直接用于生产环境的代码，附带详细解释，这正是开发者所需要的。

数据说明了部分情况。Claude Opus 4.1在SWE-bench（衡量现实世界编码任务的基准）上表现优异——在实际编码场景中持续优于竞争对手。这种性能差距意味着数小时的调试、彻底重写，以及顺利发布与苦苦挣扎之间的差别。

GPT-5在SWE-bench上并未击败Claude 4 Opus（而且此表格中没有得分更高的Opus 4.1）

但事情在这变得复杂起来……

在深入探讨Claude的护城河之前，我们得承认GPT-5的真正优势。正如Simon Willison所指出的，其定价“极具竞争力”。输入 tokens 每百万1.25美元，比Claude Opus 4.1的每百万15美元便宜12倍。对于许多使用场景来说，这足以改变游戏规则。

但Artificial Analysis揭示了一个问题：GPT-5的智能水平很大程度上取决于你的请求被路由到哪个模型。他们的基准测试显示：

本质上，你是在参与一场路由抽奖。付费开启“思考模式”（+24分），你可能会得到出色的结果。但如果被路由到“低配置”模型以获取即时答案，效果甚至不如上一代产品。这种可变性使得GPT-5在需要稳定的、生产关键型的编码工作中并不可靠。

相比之下，使用Claude时，你每次都确切知道会得到什么。没有路由随机分配，没有意外的性能降级。

这一点就很有意思了。深入研究Claude Code的内部机制后，我们发现了真正的秘密：为Claude的神经架构专门优化的复杂提示工程。

该分析得出的关键见解：

可以把这比作一级方程式赛车。GPT-5就像一辆豪华SUV：参数亮眼，功能丰富，能较好地应对各种情况，而且运行成本低得多。Claude Code则是一辆F1赛车：为单一目标而设计，每个部件都针对特定赛道进行了优化。没错，它更贵，但当你需要赢得比赛时，价格就成了次要因素。

这些提示词采用了复杂的技术：

当GPT-5尝试遵循这些为Claude优化的指令时，就好比让一位钢琴演奏家去弹奏一首专为吉他手指法设计的曲子。技术上可行，但总会丢失一些关键的东西。

这对你来说意味着什么？

如果你以成本为优化目标，GPT-5的定价无疑很有吸引力。对于一般性任务、文档工作和非关键代码编写，它可能是个明智的选择。

但对于需要一致性和质量的重要开发工作，Claude Code的优化值得支付溢价。这种提示工程护城河不只是营销话术——它决定了你是直接发布代码，还是要重写代码。

别只听我说，你可以自己测试：

随着模型逐渐商品化、价格陷入低价竞争，赢家不会是那些拥有最便宜甚至最智能模型的玩家——而是那些针对特定使用场景，具备最可靠、最专业优化的玩家。看来我们正进入产品时代。

Claude Code的提示词就是它们的护城河。无论花多少钱，GPT-5都无法跨越。

这就是我坚持使用Claude Max的原因。