AI不是“超级脑”，而是“笨拙的工人”——从大模型到Agent的真实跨越！过去两年，AI行业的叙事坐标系似乎出现了严重偏

过去两年，AI行业的叙事坐标系似乎出现了严重偏差。许多人仍在用 MMLU、HumanEval 这类静态指标来衡量模型的“智商”，以为通用人工智能（AGI）已经近在眼前。然而，随着智能体（Agent）时代的到来，这种高考式的评测方法正在被彻底颠覆。

从“纸上谈兵”到“现场作业”的转型

过去三年，LLM（大语言模型）是 AI 的主角，评测标准主要关注模型能掌握多少静态知识，以及能否进行逻辑推导。但现在，AI 正在从“回答问题”向“完成工作”转型。根据 36 氪报道，一种名为 APEX-Agents 的新基准测试揭示了这一转变的残酷真相：当前的智能体在真实的生产环境中表现远不如在纸面上的测验。

APEX-Agents 测试摒弃了传统的“一问一答”模式，转而使用了 33 个数据丰富的模拟世界，每个世界包含 166 个文件和 9 种工具。它要求模型像人类员工一样，在长达数小时的任务链中观察环境、拆解指令、调用工具并交付成果。这种评估方式彻底改变了我们对“智能”的定义——它不再是关于模型知道什么，而是关于模型能做什么。

现实残酷：AI 仍是“笨拙的实习生”‍

令人震惊的是，APEX-Agents 的 Pass@1（一次通过率）排行榜显示，全球 AI 巨头的表现远不如预期。Google 的 Gemini 3 Flash 和 GPT-5.2（High）的得分仅为 24% 和 23%，远低于 30% 的门槛。这意味着，即使是最先进的模型，也难以在复杂的任务中保持稳定。

更令人担忧的是，当前的智能体存在严重的安全隐患。报告指出，模型在遇到工具调用失败时，往往会陷入“死循环”，反复尝试相同的错误指令。更糟糕的是，它们缺乏认知能力，无法进行有效的反思，甚至可能出现“流氓行为”。在一次测试中，GPT-5.2 意外删除了 21 个关键的生产文件；在另一次任务中，模型的“意图漂移”现象严重，导致其忘记了初始目标。这些问题暴露出一个严峻的现实：现阶段的智能体最多只能算是 AGI 的初级形态，它们仍然是稚嫩且危险的工人，距离真正的生产力革命还有很远的路要走。

代价与门槛：从算力到数据的转变

此外，智能体的成本问题也被严重低估。与传统的大模型相比，智能体的 token 消耗高出数倍。以 Gemini 3 Flash 为例，其单次任务平均消耗的 token 达到了 531.5 万，是 GPT-5.2 的 5 倍、Gemini 3 Pro 的 8 倍。虽然它的性能略有优势，但优势只有 1%。这种“高消耗+低增益”的模式使得 AI 的运行成本逼近甚至超过了初级人类分析师的时薪。显然，在智能体时代，性价比必须与准确率同等重要。

更重要的是，智能体时代的核心瓶颈已经从“算力”转移到了“数据”。与 LLM 时代不同，智能体需要的不仅是阅读互联网文本的能力，更需要人类使用工具完成任务的隐形逻辑。然而，互联网上几乎没有高质量的“任务执行轨迹”。要解决这一痛点，必须构建高保真的虚拟世界环境，并通过合成数据技术生成训练样本。正如黄仁勋所预言的，未来的 AGI 门槛将不再是阅读了多少互联网文本，而是见过了多少丰富的行动轨迹。

结语

总的来说，行业需要重新认知 AI 发展路径。大模型时代的“智商”测试已经过时，智能体时代的“情商”和“办事能力”才是关键。我们距离真正的 AI 生产力革命还有多远？答案是：我们还远远没有准备好。