为什么大多数 AI agents 在演示中显得聪明,而在实际工作中却显得愚蠢

1,706 阅读7分钟

近日,谷歌 DeepMind、Meta、亚马逊和耶鲁大学联合发表了论文 《Agentic Reasoning for Large Language Models》它解释了为什么大多数 AI agents 在演示中显得很聪明,但是在实际工作中却显得愚蠢

这篇论文之所以有意思,是因为它不再讨论“Prompt Engineering”,而是正式提出了Agentic Reasoning 新范式。

对于目前 AI Agent 的问题,论文认为核心原因是在途它们本质上是被动反应(reactive generators) 下连续预测下一个 token,而不是主动规划、执行、评估和调整策略的代理(agentic reasoner)

也就是当前的 LLM 并不是在思考,而是在“反应”,例如:

当你给 GPT-4 一个复杂任务时,它是在基于概率预测下一个 token,它像一个试图一口气说完长句子的演讲人员,中间没有停顿,没有回溯,一旦开头错了,后面只能硬着头皮编下去(Error Cascading)。

而要真正让 LLM 有像人类一样“思考”的能力,就必须把推理建模为一个循环的、可控制的过程,而不是单一的 chain-of-thought prompt,论文提出一个统一框架来捕捉这种代理式智能的发展路线图。

真正的智能体推理必须是一个闭环系统,它不应该是一次性的生成,而是一个动态的、可管理的过程。

为什么需要 Agentic Reasoning?

因为目前传统 LLM 虽然能输出连贯的文字,但是:

  • 没有内在计划/监控机制
  • 没有显式目标分解、工具调度、反馈循环
  • 命令式长链推理(CoT)只是扩大 token 输出,但不会改善“决策质量”

“CoT plateau”(思维链停滞)是论文的一个重要发现, 传统的思维链(Let's think step by step)本质上还是一次性生成,模型把“思考过程”和“最终答案”混在一起输出,如果任务太长,模型就会“迷失”在自己的生成的文本中,注意力分散,导致逻辑崩塌。

所以论文认为当前 LLM 并非真正推理(reason),而是在 token 级别做统计预测(react) ,这也是为什么 demo 看起来很聪明,但在复杂任务或现实任务中表现一般,在这个基础上要改进性能,不是用更大模型+更多训练数据,而是需要改变 控制和推理体系架构

所以论文认为需要将“控制流”与“推理流”分离。

Agentic Reasoning 的定义

论文里定义了 Agentic Reasoning 是一种 循环式智能行为过程

Agentic Reasoning = Observation(观察)→ Planning(规划)→ Action(行动)→ Evaluation(评估/反思)→ Update(更新状态)→ Repeat(循环)

与经典 prompt 不同在于:

  • 它内部维护一个任务状态
  • 可以显式目标分解与工具选择
  • 实现决策而不是文本预测
  • 有反馈、回顾、修正机制

基于这种设计,在这种架构下模型能够制定长期计划,并且调用外部工具/环境交互,最重要是可以对执行结果做自我评价和修正错误路径

总而言之,就是它可以把 LLM 从“快速打字机器人”提升为“动机驱动的决策者”。

架构层级结构

论文里一共提出了一个三层结构来组织 agentic reasoning 的研究和实践:

Foundational Agentic Reasoning(基础层)

它的核心目标就是确保单一代理具备一下能力:

  • 规划与目标分解
  • 工具调用(搜索、代码执行、API 等)
  • 环境交互
  • 执行可验证行为

这一层专注于单一 agent 在稳定环境中的能力边界,例如更好的计划生成、明确的行动语义,关键在于:

  • 规划: 不是简单的列提纲,而是分层规划,模型需要能设定高层目标,并将其拆解为可执行的子目标(Subgoals),如果某条路径行不通,要有能力放弃并切换路径这一点目前的 LLM 很难做到,它们通常是一条道走到黑
  • 工具使用: 现在的 Agent 是“拿着工具的打字员”,真正的 Agentic Reasoning 要求模型明白何时以及为何使用工具,并能根据工具的反馈修正自己的计划
  • 推理搜索 : 引入像树搜索 (Tree Search)蒙特卡洛树搜索 (MCTS) 这样的机制,不仅生成一个答案,而是生成多个可能的推理路径,并在中间步骤进行自我评估(Self-Evaluation),选出最好的一条

Self-Evolving Agentic Reasoning(自我进化层)

这一层的核心目标是让 agent 学会反馈驱动调整策略

  • 反思/批判性评估行为结果
  • 记忆与状态持续更新
  • 在线学习与策略调整
  • 自我纠错

这一层也是这是 agentic 推理区别于传统 chain-of-thought 的关键设计,这是论文最精彩的部分,真正的智能体必须能在运行时(Runtime)变强,而不需要重新训练权重

  • 反思与修正:在执行完一步后,模型必须停下来“看一眼”:我做对了吗?结果符合预期吗?
  • 记忆: 传统的 Context Window(上下文窗口)不仅贵而且容易遗忘,Agentic 系统需要结构化记忆,记录过去的成功路径和失败教训,这意味着模型在同一个任务中尝试第二次时,应该比第一次聪明。

Collective Multi-Agent Reasoning(协作层)

核心目标是在多个 agent 之间的协同、共享知识、协同计划与分工和多目标优化,这一层主要是针对大型 agent 网络在复杂协作任务中的智能表现,例如团队决策、多人对话、分布式工作等。

路径

4. 为什么说“架构 > 规模”?

论文对目前行业的看法是,单纯堆算力和参数量(Scaling Laws)已经无法解决 Agent 的可靠性问题

  • 混合的代价:当同一个 Prompt 既要负责规划,又要负责执行,还要负责自我批评时,错误会静默地累积
  • 分离的好处:即使使用现有的模型(不需要训练新的 GPT-5),只要通过 Agentic 架构将规划、执行和评估拆开,性能就能获得巨大的提

所以从路径上,论文认为未来不需要更“大”的模型来做 Agent,需要更“好”的认知架构(Cognitive Architecture) ,如果用形象的话来比喻:

  • 目前的 LLM 是: 直觉、快速、下意识的反应
  • Agentic Reasoning 是: 慢思考、逻辑、规划、反思

而为了让 agentic 推理变为现实,论文区分了两类方法:

In-Context Reasoning(上下文推理)

在 Test-Time 推理时使用结构化 orchestration ,为的是不改变模型权重,通过 prompt + state 管理 + external tool 调度改善性能,方法包括 ReAct、Plan-Act-Reflect 等动态循环方法。

Post-Training Optimization(训练后优化)

用 RL、监督微调等方式改进 agentic 行为, 目标是让策略、计划、工具调用学习成为模型能力的一部分,这类方法侧重模型权重层面优化。

最后

实际上虽然论文构想很美好,但是具体落地还是有一段距离,例如:

  • 如何让代理在重大长期任务中稳定执行计划(比如跨数百步的科学探索)
  • 需要让 agent 构建并维护一个持久、可查询的环境模型
  • 不同 agent 之间如何有效协作并共享经验?
  • 真正部署的 agent 需要有对齐、安全、审计机制。

总的来说, Agentic Reasoning 是新范式而不是单项技术,它将推理表现为循环式控制过程,而非文本生成,例如:

  • 它需要显式规划、执行、反思、状态维护与反馈
  • 最终目标是打造真正具有决策能力的 AI agent 而非“更快的 typer”
  • 挑战包括世界建模、长期规划、治理、安全对齐等

从这里看,未来完全的 AI Coding 托管真的不远了,不解决外部支持,而是内在的 Agent 完全自我驱动。

参考链接

arxiv.org/abs/2601.12…