今天听说了一个叫 AGI-3 的测试,人类可以轻松得 100 分,而 AI 基本上只能得零分。
我打开看了一眼,非常有意思。
我玩了一次一脸懵逼:
我怕不是个正常人类吧……但是试了几次之后,就会了,我很快来到了第二关、第三关!
这个测试基准和以往的 AGI-1 和 AGI-2 有非常大的不同。
它就是提供了一堆可视化的游戏,但是不说规则,也不说输赢的标准,你只能通过不停的尝试,发现规律,然后通关。真的是有点难度又好玩还很直观。这不就是我在寻找的测试方法吗? 接下来肯定有很多AI卷这个基准了!
AGI 是什么?
AGI(Artificial General Intelligence,通用人工智能) ,指能够像人类一样在任意领域执行任何智力任务的 AI 系统。
这个词有一段时间非常热门。
每次 OpenAI 有新模型发布,就会说离 AGI 越来越近了。
其实有没有可能本身的 AGI 标准太低了?就像老马说的,我们要向 ARC-AGI-3 看齐了。
希望 Grok 先加点油!现在除了搜索和 X 数据,没啥优势。
今天我们就不多批判了,我们先来了解一些基础概念,为后面打基础。
ARC-AGI 是什么?
我们先从一代(ARC-AGI-1)和二代(ARC-AGI-2)说起。
先说它们在测什么?
这两个基准测的是 AI 的 "举一反三"能力——给你几个例子,你能不能自己悟出规律,然后解一道从没见过的新题。
不能靠死记硬背,不能靠海量训练,必须现场推理。
ARC-AGI-1:认图找规律
想象你看到这样一组题:
示例1: 输入 🟦⬜🟦 → 输出 🟦🟦🟦
示例2: 输入 🟥⬜🟥 → 输出 🟥🟥🟥
新题: 输入 🟩⬜🟩 → 输出 = ???
规律很简单:把中间的空格填成和两边一样的颜色。
ARC-AGI-1 就是这类题——用彩色网格,给你 2-3 个输入/输出示例,让你推断规律,补出新答案。
难点在于:每道题的规律都不一样,AI 不能靠背答案,必须每次重新推理。
人类做这类题准确率接近 100%,几乎秒解。 2024 年之前 AI 最高只有 ~34%,2025 年靠推理模型突破到 90%+,基本饱和。
ARC-AGI-2:同样认图,但规律更复杂
格式和 AGI-1 一模一样,还是网格 + 找规律。但题目难度大幅升级:
- 规律需要多步组合推理(先做 A,再做 B,再做 C)
- 更容易让 AI 误判,因为表面看着像 AGI-1 的题,实则陷阱很多
- 专门设计来对抗"死记硬背"和"靠训练数据猜答案"
人类依然轻松解,AI 顶级模型(Opus 4.6)目前也才 68.8%,GPT-5.4 约 73%。
一句话总结两者区别
| ARC-AGI-1 | ARC-AGI-2 | |
|---|---|---|
| 格式 | 彩色网格找规律 | 同上 |
| 难度 | 规律直接,单步推理 | 规律复杂,多步组合 |
| AI 现状 | 已饱和(90%+) | 仍有明显差距(~70%) |
| 人类表现 | 接近 100% | 接近 100% |
ARC-AGI-2 得分
现在顶级的模型,已经很少提 AGI-1 了,基本上都在刷 AGI-2。
下面是当前顶尖模型的 AGI-2 得分:
| 模型 | ARC-AGI-2 |
|---|---|
| Gemini 3.1 Pro | 77.1% |
| GPT-5.4 | 73.3% |
| Claude Opus 4.6 | 68.8% |
| Claude Sonnet 4.6 | 58.3% |
| Claude Opus 4.5 | 37.6% |
ARC-AGI-3 是什么
有了 1 和 2 的基础信息,我们就可以来理解一下 3 了。
基准简介
ARC-AGI-3 于 2026 年 3 月 25 日在旧金山 Y Combinator 正式发布,由 François Chollet 和 Mike Knoop 创立的 ARC Prize 基金会推出。发布现场是 Chollet 与 Sam Altman 的炉边对话。
核心设计:从静态到交互
ARC-AGI-1 和 ARC-AGI-2 是"图像输入→图像输出"的静态基准,呈现网格模式让 AI 续答。
ARC-AGI-3 彻底改变了格式——每个环境是一个回合制游戏,有自己的内部逻辑,没有任何说明、描述或胜利条件。
Agent 必须自主探索每个环境,搞清楚它的运行规则,发现"获胜"长什么样,并将学到的东西跨关卡延续下去。
测试的四种核心能力
与静态基准相比,ARC-AGI-3 考察更广的能力维度:即时学习(不能靠死记策略,必须现场重组)、探索(能否通过自主选择高效收集环境信息)、记忆(如何存储以往经验供后续使用)、目标获取(在终极目标未知的情况下,能否自行设定中间目标)。
当前成绩:人类 100% vs AI 0.26%
人类得分 100%,前沿 AI 得分仅 0.26%。
测试中发现了一个惊人规律:Claude Opus 4.6 在已知环境中用定制 harness 跑出了 97.1% 的高分,但换到未知环境直接归零——这说明感知游戏环境和 API 格式本身不是瓶颈,定制策略根本不能迁移到新环境。
效率优先的评分体系
ARC-AGI-3 引入了"行动效率"这一核心指标——不只看是否达成目标,还要衡量达成目标花了多少步。这给出了一种新的智能定义:智能 = 从环境信息到有效行为的转化效率。
来自 1200+ 名人类玩家在 3900+ 场游戏中的表现数据是所有 AI 的基准线。
与前两版的对比
| 版本 | 格式 | 前沿模型最高分 | 人类基准 | |
|---|---|---|---|---|
| ARC-AGI-1 | 静态网格 | ~90%+ | ~100% | |
| ARC-AGI-2 | 复杂组合谜题 | ~77% | ~100% | |
| ARC-AGI-3 | 交互式游戏 | <1% (约 0.26%) | 100% |
奖金与规则
ARC Prize 2026 设有总计 200 万美元 奖金,分两个赛道,所有获奖方案必须开源,不允许调用外部 API。这意味着不能靠调用 Claude/GPT 等外部模型取胜,必须是真正自主学习的 Agent。
一句话总结: ARC-AGI-3 标志着 AI 评测从"会不会答题"转向"会不会在全新环境中自主学习",是目前唯一将人机学习效率进行量化对比的基准。
听到这个消息我如获至宝,正愁没有好的测试方法,现在有了。而且这个测试本身就很好玩了。
我突然有一个脑洞关联,小孩子提升思维能力的最佳方式是玩顶级的 3A 游戏,那种开放世界的 3A 游戏,需要自己去探索规则,然后解决问题,发现通关的关键。
毕竟 AI 都不是简单刷题了,小孩子天天还在死记硬背。
当然不光是小孩子,所以死记硬背的人类都应该觉醒了。
虽然现在在 AGI-3 中人类几乎以 100% vs 0% 碾压顶级 AI,人类还可以自豪一下!
但是半年之后就很难说了,一旦 AI 有了目标,升级就非常快。
等到 AGI-4 基准出来的时候,可能很多智商在中位数以下的人类,已经连题目都看不懂了。
相关网址: