大模型编程能力,真到"爆表"了吗?ARC-AGI-2/3 给出了一个残酷答案

0 阅读6分钟

打开任何一份 2026 年的模型发布公告,你大概率会看到这样的数字:MMLU 接近天花板、SWE-bench 屡破新高、HumanEval 早已被"刷爆"。每当新模型上线,社交媒体上总会冒出一句熟悉的话:"AI 写代码已经追上甚至超过人类了。"

但如果你真的把这些模型丢进自己的代码仓库,让它处理一段历史包袱沉重的业务逻辑,或者让它去理解一个奇形怪状的私有协议,你会发现——它仍然会莫名其妙地踩坑、胡乱编造 API、把边缘情况全部忽略。

问题出在哪里?答案其实很简单:主流榜单测的大多是"见过的题"。而真正的开发任务,充满了个性化、非标准、从未出现在训练语料里的抽象推理问题。

要想看到模型的真实实力,就得换一把尺子。这把尺子,就是 ARC-AGI。

image.png

一、ARC-AGI 到底在测什么?

ARC-AGI 由 Keras 之父 François Chollet 在 2019 年提出,核心理念只有一句话:衡量的不是"知识储备",而是"流体智力"(fluid intelligence)——面对从未见过的问题,能不能举一反三。

每道 ARC 题目都是一组彩色方格图谱:你会看到几对"输入—输出"示例,任务是根据这些例子,自己总结出背后的规则,然后把它应用到新的输入上。规则可能是"把每个红色方块的邻居染成蓝色",也可能是"找到图形的对称轴并镜像"——但同一条规则在整个数据集里只出现一次。

这意味着:靠背题、靠记忆、靠海量预训练数据,几乎拿不到分。能拿分的唯一办法,是当场感知、当场抽象、当场泛化。

这恰恰也是"真实开发工作"最稀缺的那种能力——不是调用已知库,而是把一个陌生的系统,拆解成几条干净的规则。

二、ARC-AGI-2:让"满血"大模型现原形

2025 年,ARC Prize 团队推出了 ARC-AGI-2。相比一代,它的题目更刁钻、陷阱更密集、对"符号捷径"更加敏感,目的是把那些靠暴力搜索、靠蒙混过关的方法彻底筛掉。

来看 arcprize.org/leaderboard 今天的数据(截至 2026 年 4 月):

  • GPT-5.5 (xHigh):约 85%,排名第一
  • GPT-5.4 Pro (xHigh):约 84%
  • Gemini 3.1 Pro (Preview):约 77%
  • Claude 4.7 (Max):约 73%
  • Claude Opus 4.6 (120K, Medium):约 66%
  • Claude Sonnet 4.6 (High):约 60%
  • GPT-5.4 (Medium):约 54%
  • Grok 4 (Refine):约 28%
  • o3 (High):约 5%
  • GPT-4.5:约 1%

你没看错:一代代被媒体称作"GPT-4 已经超越人类"的模型,在 ARC-AGI-2 面前的表现,有不少还停留在个位数。而人类普通成年人平均大约能做对 60% 左右。

榜单还同时公布了一个容易被忽略的维度——单题成本。横轴是每道题花多少美元,纵轴才是得分。GPT-5.5 拿到 85% 的代价,是每题接近 $10;而那些"便宜高效"的基础模型,往往卡在 30% 上不去。

这张图的潜台词非常直白:当前的高分,并不是"智能跃迁",而是"算力堆叠"。模型确实可以用多轮推理、长思维链、搜索式采样把分数顶上去,但每一分都在烧钱。这种提升在产品里能不能扩展到你真实的业务场景,要打一个大大的问号。

三、ARC-AGI-3:交互式推理,重新归零

就在大家以为 ARC-AGI-2 快被"解决"的时候,团队又抛出了一个更狠的基准——ARC-AGI-3。

ARC-AGI-3 把题目从静态图谱变成了交互式环境,像一个极简版的视频游戏:智能体不能再一次性看完所有"示例—答案",而是必须自己进入环境、试错、观察、总结、再行动。规则不会写在题面上,要靠"玩"才能摸出来。

它考察四件事:

  1. 在线学习(On-the-fly Learning):进入陌生环境后,能不能一边行动一边总结规律。
  2. 探索(Exploration):在信息不完全的情况下,怎么高效地去试探。
  3. 记忆(Memory):把哪些观察存起来、怎么组织、何时调用。
  4. 目标获取(Goal Acquisition):没人告诉你"赢"是什么,能不能自己设立中间目标。

结果有多震撼?ARC-AGI-3 Leaderboard 上的最高分,目前是这样:

  • Anthropic Opus 4.6 (Max):约 0.6%
  • Gemini 3.1 Pro (Preview):约 0.45%
  • GPT-5.4 (High):约 0.25%

是的,最强的模型,只能做对 0.6%。而 ARC Prize 团队测试的人类玩家,通关率接近 100%——不仅能过,而且"挺好玩"。

这个 1% 和 100% 之间的裂缝,正是当前 AI 最真实的天花板。它告诉我们:单轮、静态、给定上下文的任务,大模型已经很强;但只要换成需要持续观察、持续决策、持续修正世界模型的开发场景(也就是绝大多数真实工程问题),它立刻会变成一个非常普通的玩家。

四、为什么开发者应该认真看 ARC-AGI 榜单?

因为大多数"企业代码任务"其实都是 ARC 式的:

  • 一套没文档的内部协议,你只能从日志里推断;
  • 一个遗留系统,接口设计反直觉,要当场重构心智模型;
  • 一个产品需求,别家没做过,你得自己拆出规则。

这些任务不是"从 Stack Overflow 复制粘贴"能解决的——它们需要真·抽象推理。而 ARC-AGI-2 / 3 恰恰是目前对这种能力最干净、最难作弊的测量方式。

换句话说,与其看"某模型在 HumanEval 上涨了 3 分",不如盯一下它在 ARC-AGI-2 / 3 上的位置变化。后者才是"这个模型能不能真帮我写那段邪门代码"的领先指标。

五、榜单地址与使用建议

ARC Prize 官方榜单:arcprize.org/leaderboard

打开后,可以在页面中部切换三个 Tab:

  • ARC-AGI-1:一代,已接近饱和,看历史对照即可。
  • ARC-AGI-2:目前的主战场,推荐重点关注。
  • ARC-AGI-3:未来三到五年的真正挑战,关注"谁先从 1% 跨到 10%"。

两条使用建议:

  1. 别只看分数,也看成本。榜单把 Score 和 Cost per Task 画在同一张图上,是有原因的。花一块钱做对 30%,往往比花十块钱做对 60% 更有工程价值。
  2. 关注趋势而非排名。榜单每周都在刷新,谁在原地踏步、谁在加速追赶,一眼便知——这比发布会上的修辞可靠得多。

结语

当 AI 圈都在讨论"模型还能涨多少分"的时候,ARC-AGI 在提醒我们:真正的智能不是分数的堆叠,而是面对陌生世界时的那一下"灵光一闪"。

在你下次对某个模型发出"它好像啥都会"的感叹之前,不妨先去 arcprize.org/leaderboard 看一眼它在 ARC-AGI-2 和 ARC-AGI-3 上的真实位置。也许答案没你想的那么乐观——但这恰恰是这条赛道最有意思的地方。