AI Coding Agent 哪家强?Artificial Analysis 最新测评,谷歌垫底

0 阅读5分钟

你有没有这种感觉——AI 编程助手越来越多了,每家都说自己最强,但你根本不知道该信谁。

前几天,独立评测机构 Artificial Analysis 发布了一个新的编码智能体排行榜(Coding Agent Index),和之前的基准测试不太一样,它不只看模型本身的能力,而是把"模型+智能体框架"作为一个整体来评测。

也就是说,测的是 AI 在真实开发环境里到底能干多少活。

今天我们就来拆解一下这个测评,看看它到底考了什么、结果说明了什么、以及对你选工具有什么参考。

一、这个测评到底考什么?

Artificial Analysis 的 Coding Agent Index 由三个子测试组成,简单平均算出一个综合分:

1. SWE-Bench-Pro-Hard-AA(150 题)

这个测试基于真实的 GitHub Issue,让 AI 去修 bug 或者实现功能,然后提交补丁。关键是"Pro + Hard"——这是从 SWE-Bench 里挑出来的难题,相当于地狱难度。提供方是 Scale AI。

2. Terminal-Bench v2(84 题)

这个测试让 AI 在命令行环境里完成多步骤的任务,比如装依赖、改配置、跑脚本等。它考察的不是"写代码",而是"在终端里干活"的能力——这才是很多日常开发的真实场景。提供方是 Laude Institute。

3. SWE-Atlas-QnA(124 题)

这个测试考的是"读代码"——给 AI 一个代码仓库,问它技术问题。看它能不能理解代码逻辑、找到关键位置。提供方也是 Scale AI。

评分方式: 每个测试跑 3 次取平均 pass@1(一次性通过率),三个测试等权平均,得出最终的 Coding Agent Index。

这里有个细节值得注意:pass 不等于 solve。一次运行可以正常完成但得零分,因为结果不对。

另外,部分题目支持按 rubric 给部分分,不是非黑即白。

详细的methodology进这个链接:artificialanalysis.ai/methodology…

二、排名结果:谁是最强编码智能体?

根据 Artificial Analysis 官网数据,17 个参赛组合的完整排名如下:

总指数:

单任务消耗Token量:

单任务成本:

单任务用时:

一张图总结:

几个值得关注的点:

第一梯队竞争激烈。 Claude Code + Opus 4.7 (max) 以 67 排第一,Codex + GPT-5.5 (xhigh) 以 65 紧随其后,只差 2 分。

但两者的单任务成本都超过 $4,是全场最贵的。

性价比的王者。 Cursor CLI + Composer 2.5 Fast 排第 3。

指数 63,但每任务只要 $0.44——比第一名便宜近 10 倍。

如果你用订阅制,这个差距更大。

开源模型的表现。 GLM-5.1 在 Claude Code 框架下拿到 53,排第 8,是开源模型中的第一。

Kimi K2.6 和 DeepSeek V4 Pro(high) 也都达到了 50 的线。

但耗时明显更长——Kimi K2.6 平均每任务要 41.5 分钟,是全场最慢的。

Gemini CLI 垫底。 43 的综合指数,和其他选手差距不小,说明 Google 在智能体框架层面还有不少功课要做。

这不Google I/O大会刚结束,劈柴就在播客里亲口承认了他们coding agent还有不足......

What a conincidence!

三、同一个模型,换个框架,结果就变了

这是我觉得这个测评最有价值的一个发现。

Artificial Analysis 做了一个"框架对比"——同一个模型,在不同框架下跑。

我们来看看 Opus 4.7 的数据:

框架模型配置综合指数成本耗时SWE-Atlas-QnASWE-Bench-Pro-HardTerminal-Bench v2
Claude CodeOpus 4.7 (max)67$4.1413.8 min814574
Cursor CLIOpus 4.7 (medium)61$1.477.8 min783471
Claude CodeOpus 4.7 (medium)60$1.245.8 min723671

注意,Claude Code + Opus 4.7 (max) 和 Cursor CLI + Opus 4.7 (medium) 用的是不同的 effort 等级(max vs medium),不能完全等同对比。

但同在 medium 下,Claude Code 和 Cursor CLI 的指数分别是 60 和 61,差距只有 1 分。

有意思的是,在 medium 配置下,Cursor CLI 指数略高,但 Claude Code 更快(5.8 vs 7.8 分钟)更便宜(1.24 vs $1.47)

而 Claude Code 把 effort 拉到 max 后,指数跳到 67,代价是成本涨到 $4.14、耗时增加到 13.8 分钟。

这说明什么?

框架不只是"包装",它决定了 AI 怎么理解任务、怎么调用工具、怎么规划步骤。

同样的底层模型,换个框架,得分、速度、成本都会不同。

而且 effort 等级(模型投入的推理深度)是另一个关键变量——更高的 effort 能换更高的分数,但成本和时间也跟着涨。

一句话总结:模型决定了上限,框架和配置决定了你用什么代价发挥几成。

四、三大子测试:谁是单项冠军?

综合指数是三个测试的等权平均,但拆开看,不同组合各有所长:

代码问答(SWE-Atlas-QnA):Claude Code + Opus 4.7 (max) 领先,81 分。

这个维度测的是"读代码"能力,Claude 家族整体表现不错,Codex + GPT-5.5 也拿到了 81 分。

代码补丁(SWE-Bench-Pro-Hard-AA):Cursor CLI + Composer 2.5 领先,49 分。

没看错,综合指数排第 3 的 Cursor Composer 2.5 Fast,在最难的补丁任务上反而最高。Opus 4.7 (max) 也有 45 分。整体来看,这个维度的分数偏低,说明所有智能体在复杂代码实现上还有很大的提升空间。

终端操作(Terminal-Bench v2):Codex + GPT-5.5 (xhigh) 一骑绝尘,84 分。

第二名也是Codex + GPT 5.5 medium,76分。

第一名比第三名 (Claude Code + Opus 4.7 max 的 76 分)高了 10 分。

OpenAI 在命令行工作流上的优势非常明显。

没有哪个组合在三项上都拿第一。选工具的时候,先想清楚你最需要哪种能力。

五、成本和速度:看不见的竞争

除了正确率,成本和速度可能是日常使用中更敏感的指标。

成本的差距惊人。 最贵的组合(Codex + GPT-5.5 xhigh,4.33/任务)和最便宜的(CursorCLI+Composer24.33/任务)和最便宜的(Cursor CLI + Composer 2,0.07/任务)相差 60 倍。

最贵的组合(Codex + GPT-5.5 xhigh,4.33/任务)和第三便宜的组合(CursorCLI+Composer2.5Fast4.33/任务)和第三便宜的组合 (Cursor CLI + Composer 2.5 Fast 0.44/任务)x相差近10倍,但后者的综合指数只低了 4 分。

耗时差异也很大。 最快的 Claude Code + Opus 4.7 (medium) 只要 5.8 分钟/任务,最慢的 Claude Code + Kimi K2.6 要 41.5 分钟——差了 7 倍。

Kimi 和 DeepSeek 这类国产模型在耗时上明显偏长,主要是因为模型推理速度和 API 延迟。

一个直观的性价比对比:

组合指数成本耗时适合场景
Claude Code + Opus 4.7 (max)67$4.1413.8 min追求极致正确率,不在意成本
Cursor CLI + Composer 2.5 Fast63$0.446.7 min日常开发,性价比首选
Claude Code + DeepSeek V4 Pro (high)50$0.3518.0 min想用国产模型,成本可控

不过要注意,这里的成本是按 API Token 计算的,很多产品是订阅制(比如 Cursor Pro 月费 $20),实际使用成本可能和这个数字差距很大。

六、这些数据,怎么用才对?

最后聊聊避坑。

1. 指数高不等于适合你

三个子测试等权平均,但你的实际需求可能只偏重某一个。如果你主要是读代码,应该关注 QnA 成绩;如果是修 bug,看 Pro-Hard 成绩更靠谱;如果是 DevOps 类工作,Terminal-Bench 更有参考价值。

2. effort 等级影响巨大

同一个模型,medium 和 max 的 effort 等级可以带来 7 分的指数差距(Opus 4.7: 60 vs 67),但成本翻 3 倍、耗时翻 2 倍。日常开发未必需要全程开 max。

3. API 成本不等于你的实际花费

测评里的成本是按 Token 计算的,但很多产品是订阅制。Cursor 的 0.07/任务看着很便宜,但你需要订阅CursorPro0.07/任务看着很便宜,但你需要订阅 Cursor Pro(20/月)才能用 Composer 2.5。综合算下来,实际支出不一定比 API 付费低。

4. 分数是会变的

AI 领域进步太快了。这次测评是 2026 年 5 月的数据,下个月可能就变了。所以别把排行榜当定论,它更像是一个时间切片。

七、写在最后

AI 编码智能体这个赛道,变化非常快。

Artificial Analysis 做了一件有价值的事:不是简单测模型,而是测"模型+框架"的组合,这更接近真实使用场景。

从这份数据中,我看到三个趋势:

  1. 顶级闭源模型+自研框架的组合仍然领先,但差距在缩小。
  2. 性价比路线越来越能打,Cursor Composer 用极低的成本做到了 63 的指数,对大多数开发者来说足够用。
  3. 开源模型正在追赶,GLM-5.1、Kimi K2.6、DeepSeek V4 Pro 都达到了50 的线,但速度和稳定性还需要改善。

但也要清醒地认识到,任何基准测试都是简化。

真实的软件开发远比跑 benchmark 复杂——需求模糊、代码混乱、多人协作,这些都是测试覆盖不到的。

所以,排行榜看看就好,真正要选工具,还是得自己试。

建议的方式是:拿你手头的真实项目跑一跑,看哪个工具用起来最顺手、出活最快、纠错成本最低。那才是属于你的"第一名"。

数据来源:Artificial Analysis (artificialanalysis.ai),数据获取时间 2026 年 5 月 25日

测评链接: artificialanalysis.ai/agents/codi…