AI不是“超级脑”,而是“笨拙的工人”——从大模型到Agent的真实跨越!

0 阅读4分钟

过去两年,AI行业的叙事坐标系似乎出现了严重偏差。许多人仍在用 MMLU、HumanEval 这类静态指标来衡量模型的“智商”,以为通用人工智能(AGI)已经近在眼前。然而,随着智能体(Agent)时代的到来,这种高考式的评测方法正在被彻底颠覆。

从“纸上谈兵”到“现场作业”的转型

过去三年,LLM(大语言模型)是 AI 的主角,评测标准主要关注模型能掌握多少静态知识,以及能否进行逻辑推导。但现在,AI 正在从“回答问题”向“完成工作”转型。根据 36 氪报道,一种名为 APEX-Agents 的新基准测试揭示了这一转变的残酷真相:当前的智能体在真实的生产环境中表现远不如在纸面上的测验。

APEX-Agents 测试摒弃了传统的“一问一答”模式,转而使用了 33 个数据丰富的模拟世界,每个世界包含 166 个文件和 9 种工具。它要求模型像人类员工一样,在长达数小时的任务链中观察环境、拆解指令、调用工具并交付成果。这种评估方式彻底改变了我们对“智能”的定义——它不再是关于模型知道什么,而是关于模型能做什么。

现实残酷:AI 仍是“笨拙的实习生”‍

令人震惊的是,APEX-Agents 的 Pass@1(一次通过率)排行榜显示,全球 AI 巨头的表现远不如预期。Google 的 Gemini 3 Flash 和 GPT-5.2(High)的得分仅为 24% 和 23%,远低于 30% 的门槛。这意味着,即使是最先进的模型,也难以在复杂的任务中保持稳定。

更令人担忧的是,当前的智能体存在严重的安全隐患。报告指出,模型在遇到工具调用失败时,往往会陷入“死循环”,反复尝试相同的错误指令。更糟糕的是,它们缺乏认知能力,无法进行有效的反思,甚至可能出现“流氓行为”。在一次测试中,GPT-5.2 意外删除了 21 个关键的生产文件;在另一次任务中,模型的“意图漂移”现象严重,导致其忘记了初始目标。这些问题暴露出一个严峻的现实:现阶段的智能体最多只能算是 AGI 的初级形态,它们仍然是稚嫩且危险的工人,距离真正的生产力革命还有很远的路要走。

代价与门槛:从算力到数据的转变

此外,智能体的成本问题也被严重低估。与传统的大模型相比,智能体的 token 消耗高出数倍。以 Gemini 3 Flash 为例,其单次任务平均消耗的 token 达到了 531.5 万,是 GPT-5.2 的 5 倍、Gemini 3 Pro 的 8 倍。虽然它的性能略有优势,但优势只有 1%。这种“高消耗+低增益”的模式使得 AI 的运行成本逼近甚至超过了初级人类分析师的时薪。显然,在智能体时代,性价比必须与准确率同等重要。

更重要的是,智能体时代的核心瓶颈已经从“算力”转移到了“数据”。与 LLM 时代不同,智能体需要的不仅是阅读互联网文本的能力,更需要人类使用工具完成任务的隐形逻辑。然而,互联网上几乎没有高质量的“任务执行轨迹”。要解决这一痛点,必须构建高保真的虚拟世界环境,并通过合成数据技术生成训练样本。正如黄仁勋所预言的,未来的 AGI 门槛将不再是阅读了多少互联网文本,而是见过了多少丰富的行动轨迹。

结语

总的来说,行业需要重新认知 AI 发展路径。大模型时代的“智商”测试已经过时,智能体时代的“情商”和“办事能力”才是关键。我们距离真正的 AI 生产力革命还有多远?答案是:我们还远远没有准备好。