AI全军覆没，Opus4.6和GPT5.4都被AGI-3吊打了！今天听说了一个叫 AGI-3 的测试，人类可以轻松得 1

今天听说了一个叫 AGI-3 的测试，人类可以轻松得 100 分，而 AI 基本上只能得零分。

我打开看了一眼，非常有意思。

我玩了一次一脸懵逼：

我怕不是个正常人类吧……但是试了几次之后，就会了，我很快来到了第二关、第三关！

这个测试基准和以往的 AGI-1 和 AGI-2 有非常大的不同。

它就是提供了一堆可视化的游戏，但是不说规则，也不说输赢的标准，你只能通过不停的尝试，发现规律，然后通关。真的是有点难度又好玩还很直观。这不就是我在寻找的测试方法吗？接下来肯定有很多AI卷这个基准了！

AGI 是什么？

AGI（Artificial General Intelligence，通用人工智能） ，指能够像人类一样在任意领域执行任何智力任务的 AI 系统。

这个词有一段时间非常热门。

每次 OpenAI 有新模型发布，就会说离 AGI 越来越近了。

其实有没有可能本身的 AGI 标准太低了？就像老马说的，我们要向 ARC-AGI-3 看齐了。

希望 Grok 先加点油！现在除了搜索和 X 数据，没啥优势。

今天我们就不多批判了，我们先来了解一些基础概念，为后面打基础。

ARC-AGI 是什么？

我们先从一代（ARC-AGI-1）和二代（ARC-AGI-2）说起。

先说它们在测什么？

这两个基准测的是 AI 的 "举一反三"能力——给你几个例子，你能不能自己悟出规律，然后解一道从没见过的新题。

不能靠死记硬背，不能靠海量训练，必须现场推理。

ARC-AGI-1：认图找规律

想象你看到这样一组题：

示例1：  输入 🟦⬜🟦   →   输出 🟦🟦🟦
示例2：  输入 🟥⬜🟥   →   输出 🟥🟥🟥

新题：   输入 🟩⬜🟩   →   输出 = ???

规律很简单：把中间的空格填成和两边一样的颜色。

ARC-AGI-1 就是这类题——用彩色网格，给你 2-3 个输入/输出示例，让你推断规律，补出新答案。

难点在于：每道题的规律都不一样，AI 不能靠背答案，必须每次重新推理。

人类做这类题准确率接近 100%，几乎秒解。 2024 年之前 AI 最高只有 ~34%，2025 年靠推理模型突破到 90%+，基本饱和。

ARC-AGI-2：同样认图，但规律更复杂

格式和 AGI-1 一模一样，还是网格 + 找规律。但题目难度大幅升级：

规律需要多步组合推理（先做 A，再做 B，再做 C）
更容易让 AI 误判，因为表面看着像 AGI-1 的题，实则陷阱很多
专门设计来对抗"死记硬背"和"靠训练数据猜答案"

人类依然轻松解，AI 顶级模型（Opus 4.6）目前也才 68.8%，GPT-5.4 约 73%。

一句话总结两者区别

	ARC-AGI-1	ARC-AGI-2
格式	彩色网格找规律	同上
难度	规律直接，单步推理	规律复杂，多步组合
AI 现状	已饱和（90%+）	仍有明显差距（~70%）
人类表现	接近 100%	接近 100%

ARC-AGI-2 得分

现在顶级的模型，已经很少提 AGI-1 了，基本上都在刷 AGI-2。

下面是当前顶尖模型的 AGI-2 得分：

模型	ARC-AGI-2
Gemini 3.1 Pro	77.1%
GPT-5.4	73.3%
Claude Opus 4.6	68.8%
Claude Sonnet 4.6	58.3%
Claude Opus 4.5	37.6%

ARC-AGI-3 是什么

有了 1 和 2 的基础信息，我们就可以来理解一下 3 了。

基准简介

ARC-AGI-3 于 2026 年 3 月 25 日在旧金山 Y Combinator 正式发布，由 François Chollet 和 Mike Knoop 创立的 ARC Prize 基金会推出。发布现场是 Chollet 与 Sam Altman 的炉边对话。

核心设计：从静态到交互

ARC-AGI-1 和 ARC-AGI-2 是"图像输入→图像输出"的静态基准，呈现网格模式让 AI 续答。

ARC-AGI-3 彻底改变了格式——每个环境是一个回合制游戏，有自己的内部逻辑，没有任何说明、描述或胜利条件。

Agent 必须自主探索每个环境，搞清楚它的运行规则，发现"获胜"长什么样，并将学到的东西跨关卡延续下去。

测试的四种核心能力

与静态基准相比，ARC-AGI-3 考察更广的能力维度：即时学习（不能靠死记策略，必须现场重组）、探索（能否通过自主选择高效收集环境信息）、记忆（如何存储以往经验供后续使用）、目标获取（在终极目标未知的情况下，能否自行设定中间目标）。

当前成绩：人类 100% vs AI 0.26%

人类得分 100%，前沿 AI 得分仅 0.26%。

测试中发现了一个惊人规律：Claude Opus 4.6 在已知环境中用定制 harness 跑出了 97.1% 的高分，但换到未知环境直接归零——这说明感知游戏环境和 API 格式本身不是瓶颈，定制策略根本不能迁移到新环境。

效率优先的评分体系

ARC-AGI-3 引入了"行动效率"这一核心指标——不只看是否达成目标，还要衡量达成目标花了多少步。这给出了一种新的智能定义：智能 = 从环境信息到有效行为的转化效率。

来自 1200+ 名人类玩家在 3900+ 场游戏中的表现数据是所有 AI 的基准线。

与前两版的对比

版本	格式	前沿模型最高分	人类基准
ARC-AGI-1	静态网格	~90%+	~100%
ARC-AGI-2	复杂组合谜题	~77%	~100%
ARC-AGI-3	交互式游戏	<1% （约 0.26%）	100%

奖金与规则

ARC Prize 2026 设有总计 200 万美元 奖金，分两个赛道，所有获奖方案必须开源，不允许调用外部 API。这意味着不能靠调用 Claude/GPT 等外部模型取胜，必须是真正自主学习的 Agent。

一句话总结： ARC-AGI-3 标志着 AI 评测从"会不会答题"转向"会不会在全新环境中自主学习"，是目前唯一将人机学习效率进行量化对比的基准。

听到这个消息我如获至宝，正愁没有好的测试方法，现在有了。而且这个测试本身就很好玩了。

我突然有一个脑洞关联，小孩子提升思维能力的最佳方式是玩顶级的 3A 游戏，那种开放世界的 3A 游戏，需要自己去探索规则，然后解决问题，发现通关的关键。

毕竟 AI 都不是简单刷题了，小孩子天天还在死记硬背。

当然不光是小孩子，所以死记硬背的人类都应该觉醒了。

虽然现在在 AGI-3 中人类几乎以 100% vs 0% 碾压顶级 AI，人类还可以自豪一下！

但是半年之后就很难说了，一旦 AI 有了目标，升级就非常快。

等到 AGI-4 基准出来的时候，可能很多智商在中位数以下的人类，已经连题目都看不懂了。