AI全军覆没,Opus4.6和GPT5.4都被AGI-3吊打了!

0 阅读6分钟

今天听说了一个叫 AGI-3 的测试,人类可以轻松得 100 分,而 AI 基本上只能得零分。

我打开看了一眼,非常有意思。

我玩了一次一脸懵逼:

我怕不是个正常人类吧……但是试了几次之后,就会了,我很快来到了第二关、第三关!

这个测试基准和以往的 AGI-1 和 AGI-2 有非常大的不同。

它就是提供了一堆可视化的游戏,但是不说规则,也不说输赢的标准,你只能通过不停的尝试,发现规律,然后通关。真的是有点难度又好玩还很直观。这不就是我在寻找的测试方法吗? 接下来肯定有很多AI卷这个基准了!

AGI 是什么?

AGI(Artificial General Intelligence,通用人工智能) ,指能够像人类一样在任意领域执行任何智力任务的 AI 系统。

这个词有一段时间非常热门。

每次 OpenAI 有新模型发布,就会说离 AGI 越来越近了。

其实有没有可能本身的 AGI 标准太低了?就像老马说的,我们要向 ARC-AGI-3 看齐了。

希望 Grok 先加点油!现在除了搜索和 X 数据,没啥优势。

今天我们就不多批判了,我们先来了解一些基础概念,为后面打基础。

ARC-AGI 是什么?

我们先从一代(ARC-AGI-1)和二代(ARC-AGI-2)说起。

先说它们在测什么?

这两个基准测的是 AI 的 "举一反三"能力——给你几个例子,你能不能自己悟出规律,然后解一道从没见过的新题。

不能靠死记硬背,不能靠海量训练,必须现场推理

ARC-AGI-1:认图找规律

想象你看到这样一组题:

示例1:  输入 🟦⬜🟦   →   输出 🟦🟦🟦
示例2:  输入 🟥⬜🟥   →   输出 🟥🟥🟥
​
新题:   输入 🟩⬜🟩   →   输出 = ???

规律很简单:把中间的空格填成和两边一样的颜色。

ARC-AGI-1 就是这类题——用彩色网格,给你 2-3 个输入/输出示例,让你推断规律,补出新答案。

难点在于:每道题的规律都不一样,AI 不能靠背答案,必须每次重新推理。

人类做这类题准确率接近 100%,几乎秒解。 2024 年之前 AI 最高只有 ~34%,2025 年靠推理模型突破到 90%+,基本饱和。

ARC-AGI-2:同样认图,但规律更复杂

格式和 AGI-1 一模一样,还是网格 + 找规律。但题目难度大幅升级:

  • 规律需要多步组合推理(先做 A,再做 B,再做 C)
  • 更容易让 AI 误判,因为表面看着像 AGI-1 的题,实则陷阱很多
  • 专门设计来对抗"死记硬背"和"靠训练数据猜答案"

人类依然轻松解,AI 顶级模型(Opus 4.6)目前也才 68.8%,GPT-5.4 约 73%。

一句话总结两者区别

ARC-AGI-1ARC-AGI-2
格式彩色网格找规律同上
难度规律直接,单步推理规律复杂,多步组合
AI 现状已饱和(90%+)仍有明显差距(~70%)
人类表现接近 100%接近 100%

ARC-AGI-2 得分

现在顶级的模型,已经很少提 AGI-1 了,基本上都在刷 AGI-2。

下面是当前顶尖模型的 AGI-2 得分:

模型ARC-AGI-2
Gemini 3.1 Pro77.1%
GPT-5.473.3%
Claude Opus 4.668.8%
Claude Sonnet 4.658.3%
Claude Opus 4.537.6%

ARC-AGI-3 是什么

有了 1 和 2 的基础信息,我们就可以来理解一下 3 了。

基准简介

ARC-AGI-3 于 2026 年 3 月 25 日在旧金山 Y Combinator 正式发布,由 François Chollet 和 Mike Knoop 创立的 ARC Prize 基金会推出。发布现场是 Chollet 与 Sam Altman 的炉边对话。

核心设计:从静态到交互

ARC-AGI-1 和 ARC-AGI-2 是"图像输入→图像输出"的静态基准,呈现网格模式让 AI 续答。

ARC-AGI-3 彻底改变了格式——每个环境是一个回合制游戏,有自己的内部逻辑,没有任何说明、描述或胜利条件。

Agent 必须自主探索每个环境,搞清楚它的运行规则,发现"获胜"长什么样,并将学到的东西跨关卡延续下去。

测试的四种核心能力

与静态基准相比,ARC-AGI-3 考察更广的能力维度:即时学习(不能靠死记策略,必须现场重组)、探索(能否通过自主选择高效收集环境信息)、记忆(如何存储以往经验供后续使用)、目标获取(在终极目标未知的情况下,能否自行设定中间目标)。

当前成绩:人类 100% vs AI 0.26%

人类得分 100%,前沿 AI 得分仅 0.26%。

测试中发现了一个惊人规律:Claude Opus 4.6 在已知环境中用定制 harness 跑出了 97.1% 的高分,但换到未知环境直接归零——这说明感知游戏环境和 API 格式本身不是瓶颈,定制策略根本不能迁移到新环境。

效率优先的评分体系

ARC-AGI-3 引入了"行动效率"这一核心指标——不只看是否达成目标,还要衡量达成目标花了多少步。这给出了一种新的智能定义:智能 = 从环境信息到有效行为的转化效率

来自 1200+ 名人类玩家在 3900+ 场游戏中的表现数据是所有 AI 的基准线。

与前两版的对比

版本格式前沿模型最高分人类基准
ARC-AGI-1静态网格~90%+~100%
ARC-AGI-2复杂组合谜题~77%~100%
ARC-AGI-3交互式游戏<1% (约 0.26%)100%

奖金与规则

ARC Prize 2026 设有总计 200 万美元 奖金,分两个赛道,所有获奖方案必须开源,不允许调用外部 API。这意味着不能靠调用 Claude/GPT 等外部模型取胜,必须是真正自主学习的 Agent。

一句话总结: ARC-AGI-3 标志着 AI 评测从"会不会答题"转向"会不会在全新环境中自主学习",是目前唯一将人机学习效率进行量化对比的基准。

听到这个消息我如获至宝,正愁没有好的测试方法,现在有了。而且这个测试本身就很好玩了。

我突然有一个脑洞关联,小孩子提升思维能力的最佳方式是玩顶级的 3A 游戏,那种开放世界的 3A 游戏,需要自己去探索规则,然后解决问题,发现通关的关键。

毕竟 AI 都不是简单刷题了,小孩子天天还在死记硬背。

当然不光是小孩子,所以死记硬背的人类都应该觉醒了。

虽然现在在 AGI-3 中人类几乎以 100% vs 0% 碾压顶级 AI,人类还可以自豪一下!

但是半年之后就很难说了,一旦 AI 有了目标,升级就非常快。

等到 AGI-4 基准出来的时候,可能很多智商在中位数以下的人类,已经连题目都看不懂了。

相关网址:

arcprize.org

arcprize.org/tasks/ls20

docs.arcprize.org/