你有没有这种感觉——AI 编程助手越来越多了,每家都说自己最强,但你根本不知道该信谁。
前几天,独立评测机构 Artificial Analysis 发布了一个新的编码智能体排行榜(Coding Agent Index),和之前的基准测试不太一样,它不只看模型本身的能力,而是把"模型+智能体框架"作为一个整体来评测。
也就是说,测的是 AI 在真实开发环境里到底能干多少活。
今天我们就来拆解一下这个测评,看看它到底考了什么、结果说明了什么、以及对你选工具有什么参考。
一、这个测评到底考什么?
Artificial Analysis 的 Coding Agent Index 由三个子测试组成,简单平均算出一个综合分:
1. SWE-Bench-Pro-Hard-AA(150 题)
这个测试基于真实的 GitHub Issue,让 AI 去修 bug 或者实现功能,然后提交补丁。关键是"Pro + Hard"——这是从 SWE-Bench 里挑出来的难题,相当于地狱难度。提供方是 Scale AI。
2. Terminal-Bench v2(84 题)
这个测试让 AI 在命令行环境里完成多步骤的任务,比如装依赖、改配置、跑脚本等。它考察的不是"写代码",而是"在终端里干活"的能力——这才是很多日常开发的真实场景。提供方是 Laude Institute。
3. SWE-Atlas-QnA(124 题)
这个测试考的是"读代码"——给 AI 一个代码仓库,问它技术问题。看它能不能理解代码逻辑、找到关键位置。提供方也是 Scale AI。
评分方式: 每个测试跑 3 次取平均 pass@1(一次性通过率),三个测试等权平均,得出最终的 Coding Agent Index。
这里有个细节值得注意:pass 不等于 solve。一次运行可以正常完成但得零分,因为结果不对。
另外,部分题目支持按 rubric 给部分分,不是非黑即白。
详细的methodology进这个链接:artificialanalysis.ai/methodology…
二、排名结果:谁是最强编码智能体?
根据 Artificial Analysis 官网数据,17 个参赛组合的完整排名如下:
总指数:
单任务消耗Token量:
单任务成本:
单任务用时:
一张图总结:
几个值得关注的点:
第一梯队竞争激烈。 Claude Code + Opus 4.7 (max) 以 67 排第一,Codex + GPT-5.5 (xhigh) 以 65 紧随其后,只差 2 分。
但两者的单任务成本都超过 $4,是全场最贵的。
性价比的王者。 Cursor CLI + Composer 2.5 Fast 排第 3。
指数 63,但每任务只要 $0.44——比第一名便宜近 10 倍。
如果你用订阅制,这个差距更大。
开源模型的表现。 GLM-5.1 在 Claude Code 框架下拿到 53,排第 8,是开源模型中的第一。
Kimi K2.6 和 DeepSeek V4 Pro(high) 也都达到了 50 的线。
但耗时明显更长——Kimi K2.6 平均每任务要 41.5 分钟,是全场最慢的。
Gemini CLI 垫底。 43 的综合指数,和其他选手差距不小,说明 Google 在智能体框架层面还有不少功课要做。
这不Google I/O大会刚结束,劈柴就在播客里亲口承认了他们coding agent还有不足......
What a conincidence!
三、同一个模型,换个框架,结果就变了
这是我觉得这个测评最有价值的一个发现。
Artificial Analysis 做了一个"框架对比"——同一个模型,在不同框架下跑。
我们来看看 Opus 4.7 的数据:
| 框架 | 模型配置 | 综合指数 | 成本 | 耗时 | SWE-Atlas-QnA | SWE-Bench-Pro-Hard | Terminal-Bench v2 |
|---|---|---|---|---|---|---|---|
| Claude Code | Opus 4.7 (max) | 67 | $4.14 | 13.8 min | 81 | 45 | 74 |
| Cursor CLI | Opus 4.7 (medium) | 61 | $1.47 | 7.8 min | 78 | 34 | 71 |
| Claude Code | Opus 4.7 (medium) | 60 | $1.24 | 5.8 min | 72 | 36 | 71 |
注意,Claude Code + Opus 4.7 (max) 和 Cursor CLI + Opus 4.7 (medium) 用的是不同的 effort 等级(max vs medium),不能完全等同对比。
但同在 medium 下,Claude Code 和 Cursor CLI 的指数分别是 60 和 61,差距只有 1 分。
有意思的是,在 medium 配置下,Cursor CLI 指数略高,但 Claude Code 更快(5.8 vs 7.8 分钟)更便宜(1.24 vs $1.47)
而 Claude Code 把 effort 拉到 max 后,指数跳到 67,代价是成本涨到 $4.14、耗时增加到 13.8 分钟。
这说明什么?
框架不只是"包装",它决定了 AI 怎么理解任务、怎么调用工具、怎么规划步骤。
同样的底层模型,换个框架,得分、速度、成本都会不同。
而且 effort 等级(模型投入的推理深度)是另一个关键变量——更高的 effort 能换更高的分数,但成本和时间也跟着涨。
一句话总结:模型决定了上限,框架和配置决定了你用什么代价发挥几成。
四、三大子测试:谁是单项冠军?
综合指数是三个测试的等权平均,但拆开看,不同组合各有所长:
代码问答(SWE-Atlas-QnA):Claude Code + Opus 4.7 (max) 领先,81 分。
这个维度测的是"读代码"能力,Claude 家族整体表现不错,Codex + GPT-5.5 也拿到了 81 分。
代码补丁(SWE-Bench-Pro-Hard-AA):Cursor CLI + Composer 2.5 领先,49 分。
没看错,综合指数排第 3 的 Cursor Composer 2.5 Fast,在最难的补丁任务上反而最高。Opus 4.7 (max) 也有 45 分。整体来看,这个维度的分数偏低,说明所有智能体在复杂代码实现上还有很大的提升空间。
终端操作(Terminal-Bench v2):Codex + GPT-5.5 (xhigh) 一骑绝尘,84 分。
第二名也是Codex + GPT 5.5 medium,76分。
第一名比第三名 (Claude Code + Opus 4.7 max 的 76 分)高了 10 分。
OpenAI 在命令行工作流上的优势非常明显。
没有哪个组合在三项上都拿第一。选工具的时候,先想清楚你最需要哪种能力。
五、成本和速度:看不见的竞争
除了正确率,成本和速度可能是日常使用中更敏感的指标。
成本的差距惊人。 最贵的组合(Codex + GPT-5.5 xhigh,0.07/任务)相差 60 倍。
最贵的组合(Codex + GPT-5.5 xhigh,0.44/任务)x相差近10倍,但后者的综合指数只低了 4 分。
耗时差异也很大。 最快的 Claude Code + Opus 4.7 (medium) 只要 5.8 分钟/任务,最慢的 Claude Code + Kimi K2.6 要 41.5 分钟——差了 7 倍。
Kimi 和 DeepSeek 这类国产模型在耗时上明显偏长,主要是因为模型推理速度和 API 延迟。
一个直观的性价比对比:
| 组合 | 指数 | 成本 | 耗时 | 适合场景 |
|---|---|---|---|---|
| Claude Code + Opus 4.7 (max) | 67 | $4.14 | 13.8 min | 追求极致正确率,不在意成本 |
| Cursor CLI + Composer 2.5 Fast | 63 | $0.44 | 6.7 min | 日常开发,性价比首选 |
| Claude Code + DeepSeek V4 Pro (high) | 50 | $0.35 | 18.0 min | 想用国产模型,成本可控 |
不过要注意,这里的成本是按 API Token 计算的,很多产品是订阅制(比如 Cursor Pro 月费 $20),实际使用成本可能和这个数字差距很大。
六、这些数据,怎么用才对?
最后聊聊避坑。
1. 指数高不等于适合你
三个子测试等权平均,但你的实际需求可能只偏重某一个。如果你主要是读代码,应该关注 QnA 成绩;如果是修 bug,看 Pro-Hard 成绩更靠谱;如果是 DevOps 类工作,Terminal-Bench 更有参考价值。
2. effort 等级影响巨大
同一个模型,medium 和 max 的 effort 等级可以带来 7 分的指数差距(Opus 4.7: 60 vs 67),但成本翻 3 倍、耗时翻 2 倍。日常开发未必需要全程开 max。
3. API 成本不等于你的实际花费
测评里的成本是按 Token 计算的,但很多产品是订阅制。Cursor 的 20/月)才能用 Composer 2.5。综合算下来,实际支出不一定比 API 付费低。
4. 分数是会变的
AI 领域进步太快了。这次测评是 2026 年 5 月的数据,下个月可能就变了。所以别把排行榜当定论,它更像是一个时间切片。
七、写在最后
AI 编码智能体这个赛道,变化非常快。
Artificial Analysis 做了一件有价值的事:不是简单测模型,而是测"模型+框架"的组合,这更接近真实使用场景。
从这份数据中,我看到三个趋势:
- 顶级闭源模型+自研框架的组合仍然领先,但差距在缩小。
- 性价比路线越来越能打,Cursor Composer 用极低的成本做到了 63 的指数,对大多数开发者来说足够用。
- 开源模型正在追赶,GLM-5.1、Kimi K2.6、DeepSeek V4 Pro 都达到了50 的线,但速度和稳定性还需要改善。
但也要清醒地认识到,任何基准测试都是简化。
真实的软件开发远比跑 benchmark 复杂——需求模糊、代码混乱、多人协作,这些都是测试覆盖不到的。
所以,排行榜看看就好,真正要选工具,还是得自己试。
建议的方式是:拿你手头的真实项目跑一跑,看哪个工具用起来最顺手、出活最快、纠错成本最低。那才是属于你的"第一名"。
数据来源:Artificial Analysis (artificialanalysis.ai),数据获取时间 2026 年 5 月 25日