【世界模型】——LLM不只是序列预测器:Mind Lab新研究揭示大模型如何成为「世界模拟器」

0 阅读8分钟

大语言模型能否成为智能体学习的「世界模型」?Mind Lab的最新研究给出了系统性答案。

智能体强化学习(Agentic RL)正面临一个意想不到的瓶颈。

过去一年,智能体领域进展显著:模型已经能够浏览网页、编写并执行代码、在复杂的工具生态中进行交互。然而,一个新问题浮出水面——与静态的预训练语料库不同,智能体的经验必须通过交互来获取

现实环境交互速度慢、成本高、缺乏适应性,而且在覆盖范围上存在根本局限。Mind Lab将这一问题定义为**「经验瓶颈」**:智能体所需的经验量与现实世界所能提供的经验量之间,存在日益扩大的鸿沟。

如何破局?

Mind Lab认为,答案是世界建模(World Modeling) ——训练模型来模拟环境动态,让智能体能够通过「想象」中的交互进行学习,而不仅仅依赖真实的交互片段。

这引出了一个核心问题:

LLM能否成为智能体学习的有效世界模型?如果可以,在什么条件下才能真正发挥作用?

Mind Lab的最新研究对这些问题进行了系统性回答。

五大文本环境,一套统一测试平台

为了在受控环境下研究LLM作为世界模型的能力,研究团队将重点放在了文本环境上。

这种抽象方式保留了智能体与环境交互的核心挑战——状态追踪、动作执行、奖励预测——同时将目标从「预测下一个Token」重构为「预测下一个状态」。

研究涵盖了五种代表性环境:

环境领域动态特性
ALFWorld家务任务结构化,具身
SciWorld科学实验结构化,因果
TextWorld交互小说结构化,叙事
WebShop网页导航开放式,组合
StableToolBenchAPI工具使用开放式,符号

这些设置共同提供了一个全面的测试平台,用于评估作为「文本世界模拟器」的语言模型。

三层评估框架:不只看预测准确率

评估用于智能体学习的世界模型,不能只看预测准确率。研究团队引入了一个三层框架

  1. 保真度与一致性:世界模型能否在短期和长期范围内维持连贯的潜状态?
  2. 可扩展性与鲁棒性:世界建模能力如何随数据和模型规模增长?在分布偏移下是否具有泛化性?
  3. 智能体效用:高保真度的世界模型能否转化为下游智能体性能的提升?

该框架超越了以往主要关注单步预测准确率的研究,明确建模和评估长程一致性——这对合成数据生成和基于模型的强化学习至关重要。

五大核心发现

发现一:LLM具备内在的潜状态动态

预训练LLM已经编码了丰富的世界知识。

Claude和Gemini这样的模型,仅通过少量上下文样本(Few-shot)就能在结构化环境中实现强大的下一状态预测。例如在SciWorld中,Claude的准确率仅凭三个示例就从56.8%跃升至73.1%。

然而,这种隐性知识是有局限的。在WebShop等开放式环境中,Few-shot提示在50%左右就停滞不前——仅靠提示无法捕捉转移模式的全部多样性。

监督微调(SFT)带来了显著改变。 在转移轨迹上训练的开源7B模型,在ALFWorld和SciWorld上达到了99%和98% 的准确率。

结论很清晰:高保真度的世界建模需要与动态对齐的训练。

模型设置ALFWorldSciWorldTextWorldWebShop
Claude-sonnet-4.5Zero-shot64.756.817.758.8
Claude-sonnet-4.5Few-shot (3)7773.149.156.7
Gemini-2.5-flashFew-shot (3)61.961.240.466.1
Qwen2.5-7BSFT99.998.670.679.1
Llama3.1-8BSFT99.798.670.577.2

SFT模型显著优于即使是最强的Few-shot提示前沿模型。

发现二:世界模型能保持长程一致性

一个可靠的世界模型不仅要准确预测下一个状态,还必须在长时间推演中保持连贯性。

研究团队定义了一致性比率(CR) 来衡量这一点:CR = W2R / Real,其中Real是智能体在现实环境中的成功率,W2R是在现实环境中重放世界模型生成的动作时的成功率。

CR接近1.0,意味着在模拟中生成的轨迹在现实中几乎可以完美执行。

结果如何?

在结构化环境中,微调后的世界模型实现了CR > 0.90——模拟生成的多步轨迹在迁移到现实时几乎完美执行。

智能体ALFWorld CRSciWorld CRTextWorld CRWebShop CR
GPT-4o0.990.90.980.56
GPT-4.11.041.0710.58
GPT-50.950.8910.61
Claude-sonnet-4.50.930.8810.82
平均0.960.910.920.67

值≥1.0表明世界模型推演能够完美迁移(或更好)到现实环境。

开放式环境则更困难。WebShop一致性在56–67%左右,主要因为模型难以模拟多样化的搜索结果。但当研究者用现实观测(如真实搜索结果)作为推演的「锚点」时,一致性跃升至近100%——部分的现实世界基础可以有效减少模拟漂移。

发现三:世界建模遵循可预测的扩展定律

研究最重要的发现之一:世界建模遵循可预测的扩展定律——但对环境有很强的依赖性。

数据扩展方面:结构化环境改进迅速,在约2万条轨迹时饱和,与其低熵动态一致。开放式环境的扩展更为平缓——WebShop在多达7万条轨迹时仍受益,而StableToolBench在16万条样本下仍未显示饱和迹象。

模型扩展方面:在结构化环境中,1.5B的模型已经可以捕捉核心动态。在开放式环境中,更大的模型提供稳定的准确率增益,表明成功需要海量数据和足够的容量。

发现四:超出记忆范围的泛化能力

世界模型设计的一个核心问题:模型是否只是记住了特定配置?

研究团队在ALFWorld中通过分布外(OOD)评估测试了这一点,改变了房间布局并引入了全新的房间类型。

结果表现优秀:世界模型在两种OOD设置下均保持了与现实环境紧密一致的成功率。这表明LLM世界模型捕捉的是可迁移的转移动态,而不是对特定布局的记忆。

研究还发现跨环境训练提供了稳定的正向增益。在多个环境中训练的单个世界模型可以稳健地服务于所有环境,特别是通过共享的物理和叙事动态,在TextWorld和WebShop中取得了尤为显著的提升。

发现五:世界模型为智能体提供真实效用

世界模型的终极考验:它是否能帮助智能体更好地学习?

研究展示了三个具体应用场景:

场景一:预执行验证

在WebShop中,结账是不可逆的。研究者将世界模型用作轻量级验证器:提交之前,智能体先模拟结果,只有当预测指示成功时才执行。

这一简单策略提高了所有智能体的成功率,其中中等容量模型的增益最大。

场景二:合成数据生成

当真实交互昂贵时,世界模型可以合成训练轨迹。

研究发现世界模型生成的轨迹与真实数据极具竞争力。在SciWorld中,合成数据的性能与真实数据相当,而混合使用两种数据源的效果优于单独使用任何一种。

场景三:强化学习的早期经验

在策略学习之前让智能体接触环境动态可以提供有用的归纳偏置。

研究者的WM-SFT → Agent-SFT → RL流程在ALFWorld和SciWorld上均带来了持续增益,稳定了RL训练并产生了更高的最终成功率。

Mind Lab:从「大脑」到「心智」

在Mind Lab看来,这项工作的关键洞察是:LLM不仅仅是序列预测器,它们是交互式世界的可学习模拟器。

这种重构解锁了超越数据增强的能力:

能力世界模型赋能了什么
推理预测是推理的核心。世界模型为因果推断、反事实思维和规划提供了基质。
适应世界模型可以被查询、倒带和探索——一个内部操场,智能体可以在面对现实后果之前进行适应。
效率智能体从想象的经验中学习,减少了对昂贵真实交互的依赖。
安全在执行前模拟不可逆动作,将高风险决策转化为低风险的探索。

Mind Lab认为,一个拥有忠实世界模型的系统可以形成预期、探测意外、预先规划并从想象中学习——这正是区分「心智」与「大脑」的关键能力。

当然,这些增益取决于行为覆盖范围、分布对齐和环境复杂性。这项研究勾勒出了世界建模在何时有所帮助——以及在何处仍有不足。

研究团队

本工作由Yixia Li在客座科学家Hongru Wang(University of Edinburgh)和Guanhua Chen(SUSTech)的指导下完成。

Mind Lab与来自Princeton University、UIUC、Microsoft Research Asia、Oxford University和Fudan University的研究人员进行了合作。

展望

这项研究为将LLM视为通用世界模型奠定了经验基础。但文字只是开始。

Mind Lab正将这些想法扩展到多模态和具身领域——那里的经验瓶颈更加严重。

从文字到世界,从静态模型到适应性心智。

论文链接:arxiv.org/abs/2512.18…

博客链接:macaron.im/mindlab/res…

参考链接: