为什么大多数 AI agents 在演示中显得聪明，而在实际工作中却显得愚蠢近日，谷歌 DeepMind、Meta、亚马

近日，谷歌 DeepMind、Meta、亚马逊和耶鲁大学联合发表了论文《Agentic Reasoning for Large Language Models》，它解释了为什么大多数 AI agents 在演示中显得很聪明，但是在实际工作中却显得愚蠢。

这篇论文之所以有意思，是因为它不再讨论“Prompt Engineering”，而是正式提出了Agentic Reasoning 新范式。

对于目前 AI Agent 的问题，论文认为核心原因是在途它们本质上是被动反应（reactive generators） 下连续预测下一个 token，而不是主动规划、执行、评估和调整策略的代理（agentic reasoner） 。

也就是当前的 LLM 并不是在思考，而是在“反应”，例如：

当你给 GPT-4 一个复杂任务时，它是在基于概率预测下一个 token，它像一个试图一口气说完长句子的演讲人员，中间没有停顿，没有回溯，一旦开头错了，后面只能硬着头皮编下去（Error Cascading）。

而要真正让 LLM 有像人类一样“思考”的能力，就必须把推理建模为一个循环的、可控制的过程，而不是单一的 chain-of-thought prompt，论文提出一个统一框架来捕捉这种代理式智能的发展路线图。

真正的智能体推理必须是一个闭环系统，它不应该是一次性的生成，而是一个动态的、可管理的过程。

因为目前传统 LLM 虽然能输出连贯的文字，但是：

“CoT plateau”（思维链停滞）是论文的一个重要发现，传统的思维链（Let's think step by step）本质上还是一次性生成，模型把“思考过程”和“最终答案”混在一起输出，如果任务太长，模型就会“迷失”在自己的生成的文本中，注意力分散，导致逻辑崩塌。

所以论文认为当前 LLM 并非真正推理（reason），而是在 token 级别做统计预测（react） ，这也是为什么 demo 看起来很聪明，但在复杂任务或现实任务中表现一般，在这个基础上要改进性能，不是用更大模型+更多训练数据，而是需要改变 控制和推理体系架构。

所以论文认为需要将“控制流”与“推理流”分离。

论文里定义了 Agentic Reasoning 是一种 循环式智能行为过程：

Agentic Reasoning = Observation（观察）→ Planning（规划）→ Action（行动）→ Evaluation（评估/反思）→ Update（更新状态）→ Repeat（循环）

与经典 prompt 不同在于：

基于这种设计，在这种架构下模型能够制定长期计划，并且调用外部工具/环境交互，最重要是可以对执行结果做自我评价和修正错误路径

总而言之，就是它可以把 LLM 从“快速打字机器人”提升为“动机驱动的决策者”。

论文里一共提出了一个三层结构来组织 agentic reasoning 的研究和实践：

它的核心目标就是确保单一代理具备一下能力：

这一层专注于单一 agent 在稳定环境中的能力边界，例如更好的计划生成、明确的行动语义，关键在于：

规划：不是简单的列提纲，而是分层规划，模型需要能设定高层目标，并将其拆解为可执行的子目标（Subgoals），如果某条路径行不通，要有能力放弃并切换路径（这一点目前的 LLM 很难做到，它们通常是一条道走到黑）
工具使用：现在的 Agent 是“拿着工具的打字员”，真正的 Agentic Reasoning 要求模型明白何时以及为何使用工具，并能根据工具的反馈修正自己的计划
推理搜索：引入像树搜索 (Tree Search) 或 蒙特卡洛树搜索 (MCTS) 这样的机制，不仅生成一个答案，而是生成多个可能的推理路径，并在中间步骤进行自我评估（Self-Evaluation），选出最好的一条