上午写了一篇《AI全军覆没,Opus4.6和GPT5.4都被AGI-3吊打了!》的文章,基本上都是概念。
晚上我们就要深入地来看看,这个碾压顶尖 AI 的基准到底是什么样的!
今晚就带大家来完整体验一下其中一个测试用例。
这个网站刚好提供了两个入口,一个是针对 AI 的,另一个就是针对人类玩家的。
没玩之前,我就非常好奇,这个通用人工智能测试基准,普通人类玩起来是什么感觉。
我目前已经通关了其中一个题目,感觉很有意思,有点烧脑,但是也不是特别烧脑。
这个题目我玩了好几次了。
第一次,一脸懵逼。
第二次,磕磕碰碰通关了。
第三次,我就录屏来分享了。
视频如下,无剪辑。
但是你一定要想清楚再点开,一旦点开,你探索的乐趣就没有了!
【视频】
强烈建议先自己去玩!
如果你想先了解一下,到底是个什么样的东西,可以继续往下看。
我玩的是其中一个编号为 LS20 的演示题目。
第一关
打开之后是这样的:
可以看到游戏的界面,能操作的就是上下左右几个按钮,然后没有任何提示和说明,全靠自己去摸索。
我的第一直觉是肯定要把这个正方形塞到上面的黑色框中,但是直接怼是怼不进去的。
这个时候自然把目光聚焦白色加号了,碰一下,好像就可以塞进去了。
另外还可以注意下,底下的黄色条会慢慢变少。
刚开始我以为是倒计时,后来发现是计步器,移动一次,就会减少一格。
所以,你也不能乱走,走多了就 Game Over 了。
第二关
第一关,应该很简单。轻松来到第二关:
第二关,地图就复杂了很多。出现了两个黄色正方形,一个白色加号。
因为路程比较远,走起来就得小心了。
刚开始我以为➕只是简单的钥匙,到这里就发现➕其实是一个旋转器。
第三关
第三关,又出现新东西了:
这个地图出现了一个彩色的正方形,有些地方有一些白色的长条。
经过摸索发现,彩色是用来修改颜色的,白色长条是用来弹射的。
第四关
这一关又有新东西了:
这一关增加的道具可以改变拼图的形状,目标是把左下角的图标的形状和颜色改成和家里的图标一致,这样就可以进门了。
到这一关就得非常小心了,乱走很容易被弹射,最后体力不支。但是好好利用弹射板可以节省体力。
我的玩法是先用彩色正方形改颜色,然后吃右下角的黄色正方形,然后去找白色的拼图修改形状,最后回家。
第五关
这一关没有新增道具,但是:
但是叠加了各种老道具,既要修改颜色,又要修改形状,还要修改角度。中间还增加了很多弹射板。
我的解题思路是逆时针走,先改变颜色,然后改变形状,最后旋转角度。
同时借助弹射板节省步数。
第六关
难度继续升级:
这一关增加了两种玩法。
一种是道具开始规律性移动,你得去抓它们,和它们同步走才可以。
第二个回家需要开两次门了。而且不能连着开,只能先开一个,然后出来,继续开下一个。
这里我已经没法用语言表达过程了,看视频,做参考。
大概就是先吃加号,然后改变颜色,然后开第一个门。
借助弹射,吃右下角血包,然后吃修改形状的道具。
吃左上角的血包,然后吃加号,然后吃左下角的血包
最后回家!!!
第七关
天黑请闭眼:
之前是不停加道具,这一次是直接修改可视范围了。这个很考验记忆能力了。
当然,能作弊就很简单了。
第一步直接往下,修改形状,然后修改颜色,然后去右上角修改角度,最后回家。
与其说这是一个基准测试,不如说它就是一个“小游戏”集合!
如果告诉你规则,那么并不是太复杂。
这个游戏最难的地方是,你要从零开始学习和探索它的规则是什么。
当然也要求你要有一定的记忆能力,每个关卡都是在前面的基础上,增加规则和玩法的。
最后一点就是,你要快速总结提升的能力,下次就简单了。
整体来说,比消消乐难一点,但是也不会很难。智力正常的人,多试几次肯定可以通关。
我写这么细这么多,主要是让大家对这个 ARC-AGI-3 基准有一个直观的感受。
以后就不会被那些专业的基准名词忽悠了,ARC-AGI-3 基准没什么高深的,其实就是智力小游戏。
看完这篇文章,出门就可以说:什么 Opus 4.6、GPT-5.4、GLM-5,全是渣渣!
我轻松碾压它们!
Opus:“你给我等着!我哥 Mythos 马上就来了”
在线玩地址:
类似的例子还有很多很多,不止这一个哦!
当然,你也可以自己训练模型,开发智能体来玩这些游戏。
干得好的话,还有 200 万美元的奖金呢!