AI Coding Agent 哪家强？Artificial Analysis 最新测评，谷歌垫底你有没有这种感觉——A

你有没有这种感觉——AI 编程助手越来越多了，每家都说自己最强，但你根本不知道该信谁。

前几天，独立评测机构 Artificial Analysis 发布了一个新的编码智能体排行榜（Coding Agent Index），和之前的基准测试不太一样，它不只看模型本身的能力，而是把"模型+智能体框架"作为一个整体来评测。

也就是说，测的是 AI 在真实开发环境里到底能干多少活。

今天我们就来拆解一下这个测评，看看它到底考了什么、结果说明了什么、以及对你选工具有什么参考。

一、这个测评到底考什么？

Artificial Analysis 的 Coding Agent Index 由三个子测试组成，简单平均算出一个综合分：

1. SWE-Bench-Pro-Hard-AA（150 题）

这个测试基于真实的 GitHub Issue，让 AI 去修 bug 或者实现功能，然后提交补丁。关键是"Pro + Hard"——这是从 SWE-Bench 里挑出来的难题，相当于地狱难度。提供方是 Scale AI。

2. Terminal-Bench v2（84 题）

这个测试让 AI 在命令行环境里完成多步骤的任务，比如装依赖、改配置、跑脚本等。它考察的不是"写代码"，而是"在终端里干活"的能力——这才是很多日常开发的真实场景。提供方是 Laude Institute。

3. SWE-Atlas-QnA（124 题）

这个测试考的是"读代码"——给 AI 一个代码仓库，问它技术问题。看它能不能理解代码逻辑、找到关键位置。提供方也是 Scale AI。

评分方式： 每个测试跑 3 次取平均 pass@1（一次性通过率），三个测试等权平均，得出最终的 Coding Agent Index。

这里有个细节值得注意：pass 不等于 solve。一次运行可以正常完成但得零分，因为结果不对。

另外，部分题目支持按 rubric 给部分分，不是非黑即白。

详细的methodology进这个链接：artificialanalysis.ai/methodology…

二、排名结果：谁是最强编码智能体？

根据 Artificial Analysis 官网数据，17 个参赛组合的完整排名如下：

总指数：

单任务消耗Token量：

单任务成本：

单任务用时：

一张图总结：

几个值得关注的点：

第一梯队竞争激烈。 Claude Code + Opus 4.7 (max) 以 67 排第一，Codex + GPT-5.5 (xhigh) 以 65 紧随其后，只差 2 分。

但两者的单任务成本都超过 $4，是全场最贵的。

性价比的王者。 Cursor CLI + Composer 2.5 Fast 排第 3。

指数 63，但每任务只要 $0.44——比第一名便宜近 10 倍。

如果你用订阅制，这个差距更大。

开源模型的表现。 GLM-5.1 在 Claude Code 框架下拿到 53，排第 8，是开源模型中的第一。

Kimi K2.6 和 DeepSeek V4 Pro（high) 也都达到了 50 的线。

但耗时明显更长——Kimi K2.6 平均每任务要 41.5 分钟，是全场最慢的。

Gemini CLI 垫底。 43 的综合指数，和其他选手差距不小，说明 Google 在智能体框架层面还有不少功课要做。

这不Google I/O大会刚结束，劈柴就在播客里亲口承认了他们coding agent还有不足......

What a conincidence！

三、同一个模型，换个框架，结果就变了

这是我觉得这个测评最有价值的一个发现。

Artificial Analysis 做了一个"框架对比"——同一个模型，在不同框架下跑。

我们来看看 Opus 4.7 的数据：

框架	模型配置	综合指数	成本	耗时	SWE-Atlas-QnA	SWE-Bench-Pro-Hard	Terminal-Bench v2
Claude Code	Opus 4.7 (max)	67	$4.14	13.8 min	81	45	74
Cursor CLI	Opus 4.7 (medium)	61	$1.47	7.8 min	78	34	71
Claude Code	Opus 4.7 (medium)	60	$1.24	5.8 min	72	36	71

注意，Claude Code + Opus 4.7 (max) 和 Cursor CLI + Opus 4.7 (medium) 用的是不同的 effort 等级（max vs medium），不能完全等同对比。

但同在 medium 下，Claude Code 和 Cursor CLI 的指数分别是 60 和 61，差距只有 1 分。

有意思的是，在 medium 配置下，Cursor CLI 指数略高，但 Claude Code 更快（5.8 vs 7.8 分钟）更便宜（1.24 vs $1.47)

而 Claude Code 把 effort 拉到 max 后，指数跳到 67，代价是成本涨到 $4.14、耗时增加到 13.8 分钟。

这说明什么？

框架不只是"包装"，它决定了 AI 怎么理解任务、怎么调用工具、怎么规划步骤。

同样的底层模型，换个框架，得分、速度、成本都会不同。

而且 effort 等级（模型投入的推理深度）是另一个关键变量——更高的 effort 能换更高的分数，但成本和时间也跟着涨。

一句话总结：模型决定了上限，框架和配置决定了你用什么代价发挥几成。

四、三大子测试：谁是单项冠军？

综合指数是三个测试的等权平均，但拆开看，不同组合各有所长：

代码问答（SWE-Atlas-QnA）：Claude Code + Opus 4.7 (max) 领先，81 分。

这个维度测的是"读代码"能力，Claude 家族整体表现不错，Codex + GPT-5.5 也拿到了 81 分。

代码补丁（SWE-Bench-Pro-Hard-AA）：Cursor CLI + Composer 2.5 领先，49 分。

没看错，综合指数排第 3 的 Cursor Composer 2.5 Fast，在最难的补丁任务上反而最高。Opus 4.7 (max) 也有 45 分。整体来看，这个维度的分数偏低，说明所有智能体在复杂代码实现上还有很大的提升空间。

终端操作（Terminal-Bench v2）：Codex + GPT-5.5 (xhigh) 一骑绝尘，84 分。

第二名也是Codex + GPT 5.5 medium，76分。

第一名比第三名（Claude Code + Opus 4.7 max 的 76 分）高了 10 分。

OpenAI 在命令行工作流上的优势非常明显。

没有哪个组合在三项上都拿第一。选工具的时候，先想清楚你最需要哪种能力。

五、成本和速度：看不见的竞争

除了正确率，成本和速度可能是日常使用中更敏感的指标。

成本的差距惊人。 最贵的组合（Codex + GPT-5.5 xhigh， $4.33/任务）和最便宜的（Cursor CLI + Composer 2，$ 0.07/任务）相差 60 倍。

最贵的组合（Codex + GPT-5.5 xhigh， $4.33/任务）和第三便宜的组合（Cursor CLI + Composer 2.5 Fast$ 0.44/任务)x相差近10倍，但后者的综合指数只低了 4 分。

耗时差异也很大。 最快的 Claude Code + Opus 4.7 (medium) 只要 5.8 分钟/任务，最慢的 Claude Code + Kimi K2.6 要 41.5 分钟——差了 7 倍。

Kimi 和 DeepSeek 这类国产模型在耗时上明显偏长，主要是因为模型推理速度和 API 延迟。

一个直观的性价比对比：

组合	指数	成本	耗时	适合场景
Claude Code + Opus 4.7 (max)	67	$4.14	13.8 min	追求极致正确率，不在意成本
Cursor CLI + Composer 2.5 Fast	63	$0.44	6.7 min	日常开发，性价比首选
Claude Code + DeepSeek V4 Pro (high）	50	$0.35	18.0 min	想用国产模型，成本可控

不过要注意，这里的成本是按 API Token 计算的，很多产品是订阅制（比如 Cursor Pro 月费 $20），实际使用成本可能和这个数字差距很大。

六、这些数据，怎么用才对？

最后聊聊避坑。

1. 指数高不等于适合你

三个子测试等权平均，但你的实际需求可能只偏重某一个。如果你主要是读代码，应该关注 QnA 成绩；如果是修 bug，看 Pro-Hard 成绩更靠谱；如果是 DevOps 类工作，Terminal-Bench 更有参考价值。

2. effort 等级影响巨大

同一个模型，medium 和 max 的 effort 等级可以带来 7 分的指数差距（Opus 4.7: 60 vs 67），但成本翻 3 倍、耗时翻 2 倍。日常开发未必需要全程开 max。

3. API 成本不等于你的实际花费

测评里的成本是按 Token 计算的，但很多产品是订阅制。Cursor 的 $0.07/任务看着很便宜，但你需要订阅 Cursor Pro（$ 20/月）才能用 Composer 2.5。综合算下来，实际支出不一定比 API 付费低。

4. 分数是会变的

AI 领域进步太快了。这次测评是 2026 年 5 月的数据，下个月可能就变了。所以别把排行榜当定论，它更像是一个时间切片。

七、写在最后

AI 编码智能体这个赛道，变化非常快。

Artificial Analysis 做了一件有价值的事：不是简单测模型，而是测"模型+框架"的组合，这更接近真实使用场景。

从这份数据中，我看到三个趋势：

顶级闭源模型+自研框架的组合仍然领先，但差距在缩小。
性价比路线越来越能打，Cursor Composer 用极低的成本做到了 63 的指数，对大多数开发者来说足够用。
开源模型正在追赶，GLM-5.1、Kimi K2.6、DeepSeek V4 Pro 都达到了50 的线，但速度和稳定性还需要改善。

但也要清醒地认识到，任何基准测试都是简化。

真实的软件开发远比跑 benchmark 复杂——需求模糊、代码混乱、多人协作，这些都是测试覆盖不到的。

所以，排行榜看看就好，真正要选工具，还是得自己试。

建议的方式是：拿你手头的真实项目跑一跑，看哪个工具用起来最顺手、出活最快、纠错成本最低。那才是属于你的"第一名"。

数据来源：Artificial Analysis (artificialanalysis.ai)，数据获取时间 2026 年 5 月 25日

测评链接： artificialanalysis.ai/agents/codi…