【世界模型】——LLM不只是序列预测器：Mind Lab新研究揭示大模型如何成为「世界模拟器」大语言模型能否成为智能体学

大语言模型能否成为智能体学习的「世界模型」？Mind Lab的最新研究给出了系统性答案。

智能体强化学习（Agentic RL）正面临一个意想不到的瓶颈。

过去一年，智能体领域进展显著：模型已经能够浏览网页、编写并执行代码、在复杂的工具生态中进行交互。然而，一个新问题浮出水面——与静态的预训练语料库不同，智能体的经验必须通过交互来获取。

现实环境交互速度慢、成本高、缺乏适应性，而且在覆盖范围上存在根本局限。Mind Lab将这一问题定义为**「经验瓶颈」**：智能体所需的经验量与现实世界所能提供的经验量之间，存在日益扩大的鸿沟。

如何破局？

Mind Lab认为，答案是世界建模（World Modeling） ——训练模型来模拟环境动态，让智能体能够通过「想象」中的交互进行学习，而不仅仅依赖真实的交互片段。

这引出了一个核心问题：

LLM能否成为智能体学习的有效世界模型？如果可以，在什么条件下才能真正发挥作用？

Mind Lab的最新研究对这些问题进行了系统性回答。

五大文本环境，一套统一测试平台

为了在受控环境下研究LLM作为世界模型的能力，研究团队将重点放在了文本环境上。

这种抽象方式保留了智能体与环境交互的核心挑战——状态追踪、动作执行、奖励预测——同时将目标从「预测下一个Token」重构为「预测下一个状态」。

研究涵盖了五种代表性环境：

环境	领域	动态特性
ALFWorld	家务任务	结构化，具身
SciWorld	科学实验	结构化，因果
TextWorld	交互小说	结构化，叙事
WebShop	网页导航	开放式，组合
StableToolBench	API工具使用	开放式，符号

这些设置共同提供了一个全面的测试平台，用于评估作为「文本世界模拟器」的语言模型。

三层评估框架：不只看预测准确率

评估用于智能体学习的世界模型，不能只看预测准确率。研究团队引入了一个三层框架：

保真度与一致性：世界模型能否在短期和长期范围内维持连贯的潜状态？
可扩展性与鲁棒性：世界建模能力如何随数据和模型规模增长？在分布偏移下是否具有泛化性？
智能体效用：高保真度的世界模型能否转化为下游智能体性能的提升？

该框架超越了以往主要关注单步预测准确率的研究，明确建模和评估长程一致性——这对合成数据生成和基于模型的强化学习至关重要。

五大核心发现

发现一：LLM具备内在的潜状态动态

预训练LLM已经编码了丰富的世界知识。

Claude和Gemini这样的模型，仅通过少量上下文样本（Few-shot）就能在结构化环境中实现强大的下一状态预测。例如在SciWorld中，Claude的准确率仅凭三个示例就从56.8%跃升至73.1%。

然而，这种隐性知识是有局限的。在WebShop等开放式环境中，Few-shot提示在50%左右就停滞不前——仅靠提示无法捕捉转移模式的全部多样性。

监督微调（SFT）带来了显著改变。 在转移轨迹上训练的开源7B模型，在ALFWorld和SciWorld上达到了99%和98% 的准确率。

结论很清晰：高保真度的世界建模需要与动态对齐的训练。

模型	设置	ALFWorld	SciWorld	TextWorld	WebShop
Claude-sonnet-4.5	Zero-shot	64.7	56.8	17.7	58.8
Claude-sonnet-4.5	Few-shot (3)	77	73.1	49.1	56.7
Gemini-2.5-flash	Few-shot (3)	61.9	61.2	40.4	66.1
Qwen2.5-7B	SFT	99.9	98.6	70.6	79.1
Llama3.1-8B	SFT	99.7	98.6	70.5	77.2

SFT模型显著优于即使是最强的Few-shot提示前沿模型。

发现二：世界模型能保持长程一致性

一个可靠的世界模型不仅要准确预测下一个状态，还必须在长时间推演中保持连贯性。

研究团队定义了一致性比率（CR） 来衡量这一点：CR = W2R / Real，其中Real是智能体在现实环境中的成功率，W2R是在现实环境中重放世界模型生成的动作时的成功率。

CR接近1.0，意味着在模拟中生成的轨迹在现实中几乎可以完美执行。

结果如何？

在结构化环境中，微调后的世界模型实现了CR > 0.90——模拟生成的多步轨迹在迁移到现实时几乎完美执行。

智能体	ALFWorld CR	SciWorld CR	TextWorld CR	WebShop CR
GPT-4o	0.99	0.9	0.98	0.56
GPT-4.1	1.04	1.07	1	0.58
GPT-5	0.95	0.89	1	0.61
Claude-sonnet-4.5	0.93	0.88	1	0.82
平均	0.96	0.91	0.92	0.67

值≥1.0表明世界模型推演能够完美迁移（或更好）到现实环境。

开放式环境则更困难。WebShop一致性在56–67%左右，主要因为模型难以模拟多样化的搜索结果。但当研究者用现实观测（如真实搜索结果）作为推演的「锚点」时，一致性跃升至近100%——部分的现实世界基础可以有效减少模拟漂移。

发现三：世界建模遵循可预测的扩展定律

研究最重要的发现之一：世界建模遵循可预测的扩展定律——但对环境有很强的依赖性。

数据扩展方面：结构化环境改进迅速，在约2万条轨迹时饱和，与其低熵动态一致。开放式环境的扩展更为平缓——WebShop在多达7万条轨迹时仍受益，而StableToolBench在16万条样本下仍未显示饱和迹象。

模型扩展方面：在结构化环境中，1.5B的模型已经可以捕捉核心动态。在开放式环境中，更大的模型提供稳定的准确率增益，表明成功需要海量数据和足够的容量。

发现四：超出记忆范围的泛化能力

世界模型设计的一个核心问题：模型是否只是记住了特定配置？

研究团队在ALFWorld中通过分布外（OOD）评估测试了这一点，改变了房间布局并引入了全新的房间类型。

结果表现优秀：世界模型在两种OOD设置下均保持了与现实环境紧密一致的成功率。这表明LLM世界模型捕捉的是可迁移的转移动态，而不是对特定布局的记忆。

研究还发现跨环境训练提供了稳定的正向增益。在多个环境中训练的单个世界模型可以稳健地服务于所有环境，特别是通过共享的物理和叙事动态，在TextWorld和WebShop中取得了尤为显著的提升。

发现五：世界模型为智能体提供真实效用

世界模型的终极考验：它是否能帮助智能体更好地学习？

研究展示了三个具体应用场景：

场景一：预执行验证

在WebShop中，结账是不可逆的。研究者将世界模型用作轻量级验证器：提交之前，智能体先模拟结果，只有当预测指示成功时才执行。

这一简单策略提高了所有智能体的成功率，其中中等容量模型的增益最大。

场景二：合成数据生成

当真实交互昂贵时，世界模型可以合成训练轨迹。

研究发现世界模型生成的轨迹与真实数据极具竞争力。在SciWorld中，合成数据的性能与真实数据相当，而混合使用两种数据源的效果优于单独使用任何一种。

场景三：强化学习的早期经验

在策略学习之前让智能体接触环境动态可以提供有用的归纳偏置。

研究者的WM-SFT → Agent-SFT → RL流程在ALFWorld和SciWorld上均带来了持续增益，稳定了RL训练并产生了更高的最终成功率。

Mind Lab：从「大脑」到「心智」

在Mind Lab看来，这项工作的关键洞察是：LLM不仅仅是序列预测器，它们是交互式世界的可学习模拟器。

这种重构解锁了超越数据增强的能力：

能力	世界模型赋能了什么
推理	预测是推理的核心。世界模型为因果推断、反事实思维和规划提供了基质。
适应	世界模型可以被查询、倒带和探索——一个内部操场，智能体可以在面对现实后果之前进行适应。
效率	智能体从想象的经验中学习，减少了对昂贵真实交互的依赖。
安全	在执行前模拟不可逆动作，将高风险决策转化为低风险的探索。

Mind Lab认为，一个拥有忠实世界模型的系统可以形成预期、探测意外、预先规划并从想象中学习——这正是区分「心智」与「大脑」的关键能力。

当然，这些增益取决于行为覆盖范围、分布对齐和环境复杂性。这项研究勾勒出了世界建模在何时有所帮助——以及在何处仍有不足。

研究团队

本工作由Yixia Li在客座科学家Hongru Wang（University of Edinburgh）和Guanhua Chen（SUSTech）的指导下完成。

Mind Lab与来自Princeton University、UIUC、Microsoft Research Asia、Oxford University和Fudan University的研究人员进行了合作。

展望

这项研究为将LLM视为通用世界模型奠定了经验基础。但文字只是开始。

Mind Lab正将这些想法扩展到多模态和具身领域——那里的经验瓶颈更加严重。

从文字到世界，从静态模型到适应性心智。

论文链接：arxiv.org/abs/2512.18…

博客链接：macaron.im/mindlab/res…

参考链接：