Opus4.6被扣99分的AGI-3,到底长啥样?

41 阅读5分钟

上午写了一篇《AI全军覆没,Opus4.6和GPT5.4都被AGI-3吊打了!》的文章,基本上都是概念。

晚上我们就要深入地来看看,这个碾压顶尖 AI 的基准到底是什么样的!

今晚就带大家来完整体验一下其中一个测试用例。

这个网站刚好提供了两个入口,一个是针对 AI 的,另一个就是针对人类玩家的

没玩之前,我就非常好奇,这个通用人工智能测试基准,普通人类玩起来是什么感觉。

我目前已经通关了其中一个题目,感觉很有意思,有点烧脑,但是也不是特别烧脑。

这个题目我玩了好几次了。

第一次,一脸懵逼。

第二次,磕磕碰碰通关了。

第三次,我就录屏来分享了。

视频如下,无剪辑。

但是你一定要想清楚再点开,一旦点开,你探索的乐趣就没有了!

【视频】

强烈建议先自己去玩!

如果你想先了解一下,到底是个什么样的东西,可以继续往下看。

我玩的是其中一个编号为 LS20 的演示题目。

第一关

打开之后是这样的:

可以看到游戏的界面,能操作的就是上下左右几个按钮,然后没有任何提示和说明,全靠自己去摸索。

我的第一直觉是肯定要把这个正方形塞到上面的黑色框中,但是直接怼是怼不进去的。

这个时候自然把目光聚焦白色加号了,碰一下,好像就可以塞进去了。

另外还可以注意下,底下的黄色条会慢慢变少。

刚开始我以为是倒计时,后来发现是计步器,移动一次,就会减少一格。

所以,你也不能乱走,走多了就 Game Over 了。

第二关

第一关,应该很简单。轻松来到第二关:

第二关,地图就复杂了很多。出现了两个黄色正方形,一个白色加号。

因为路程比较远,走起来就得小心了。

刚开始我以为➕只是简单的钥匙,到这里就发现➕其实是一个旋转器。

第三关

第三关,又出现新东西了:

这个地图出现了一个彩色的正方形,有些地方有一些白色的长条。

经过摸索发现,彩色是用来修改颜色的,白色长条是用来弹射的。

第四关

这一关又有新东西了:

这一关增加的道具可以改变拼图的形状,目标是把左下角的图标的形状和颜色改成和家里的图标一致,这样就可以进门了。

到这一关就得非常小心了,乱走很容易被弹射,最后体力不支。但是好好利用弹射板可以节省体力。

我的玩法是先用彩色正方形改颜色,然后吃右下角的黄色正方形,然后去找白色的拼图修改形状,最后回家。

第五关

这一关没有新增道具,但是:

但是叠加了各种老道具,既要修改颜色,又要修改形状,还要修改角度。中间还增加了很多弹射板。

我的解题思路是逆时针走,先改变颜色,然后改变形状,最后旋转角度。

同时借助弹射板节省步数。

第六关

难度继续升级:

这一关增加了两种玩法。

一种是道具开始规律性移动,你得去抓它们,和它们同步走才可以。

第二个回家需要开两次门了。而且不能连着开,只能先开一个,然后出来,继续开下一个。

这里我已经没法用语言表达过程了,看视频,做参考。

大概就是先吃加号,然后改变颜色,然后开第一个门。

借助弹射,吃右下角血包,然后吃修改形状的道具。

吃左上角的血包,然后吃加号,然后吃左下角的血包

最后回家!!!

第七关

天黑请闭眼:

之前是不停加道具,这一次是直接修改可视范围了。这个很考验记忆能力了。

当然,能作弊就很简单了。

第一步直接往下,修改形状,然后修改颜色,然后去右上角修改角度,最后回家。

与其说这是一个基准测试,不如说它就是一个“小游戏”集合!

如果告诉你规则,那么并不是太复杂。

这个游戏最难的地方是,你要从零开始学习和探索它的规则是什么。

当然也要求你要有一定的记忆能力,每个关卡都是在前面的基础上,增加规则和玩法的。

最后一点就是,你要快速总结提升的能力,下次就简单了。

整体来说,比消消乐难一点,但是也不会很难。智力正常的人,多试几次肯定可以通关。

我写这么细这么多,主要是让大家对这个 ARC-AGI-3 基准有一个直观的感受。

以后就不会被那些专业的基准名词忽悠了,ARC-AGI-3 基准没什么高深的,其实就是智力小游戏。

看完这篇文章,出门就可以说:什么 Opus 4.6、GPT-5.4、GLM-5,全是渣渣!

我轻松碾压它们!


Opus:“你给我等着!我哥 Mythos 马上就来了


在线玩地址:

arcprize.org/arc-agi/3

类似的例子还有很多很多,不止这一个哦!

当然,你也可以自己训练模型,开发智能体来玩这些游戏。

干得好的话,还有 200 万美元的奖金呢!