千问Qwen-AgentWorld来了：一个语言模型搞定七大Agent场景，GPT-5.4都输了阿里千问团队今天扔了个重

阿里千问团队今天扔了个重磅炸弹——Qwen-AgentWorld，号称「首个原生语言世界模型」。

这名字乍一听有点玄学，说白了就是：让大模型不只是聊天、写代码，而是学会「模拟世界」。你让它模拟一个浏览器环境，它就能像真实浏览器一样响应操作；你让它模拟一个终端，它就能给出真实的 shell 输出。

讲道理，这东西的思路挺有意思的，跟市面上那些「事后硬套」的方案不一样。

很多做世界模型的方法，是在一个已经训练好的通用大模型上叠一层适配层，让它「假装」自己是某个环境。但 Qwen-AgentWorld 的路线完全不同——它的环境建模能力是从继续预训练（CPT）阶段就开始训练的，而且是贯穿 CPT → SFT → RL 整个训练流程的。

这就像同样是学钢琴，别人是长大后才突击学几首曲子，它从小学就开始系统练琴了。底子不一样，上限自然也不一样。

它基于超过1000万条真实环境交互轨迹训练，这些轨迹来自真实用户在 MCP、搜索、终端、软件工程、Web 浏览器、操作系统和 Android 等七大场景中的操作记录。量级摆在这里，不是小打小闹。

我个人觉得，Qwen-AgentWorld 最值得关注的点不是它有多大，而是它一个模型能覆盖这么多种完全不同的环境。

想想看，MCP（模型上下文协议）是纯协议的交互，搜索引擎有网页和 API 两种形态，终端是命令行交互，软件工程涉及到 git 和编译器，Web 有 DOM 和点击事件，OS 和 Android 更是完全不同的 GUI 体系。

以前做这种多环境模拟，得各做一个模型，或者一个模型里塞好几个子模块。Qwen-AgentWorld 用一个统一的语言模型框架就全搞定了，这意味着跨领域的知识可以互相迁移。比如说，模型在终端环境里学到的东西，可能在某些层面上帮助它理解 Web 环境的返回格式。

这年头不拿跑分说话没人信服。阿里团队同步发布了 AgentWorldBench——一个覆盖七大领域的评测基准，每条测试样本都附带真实环境的执行观测数据作为「标准答案」。

结果呢？Qwen-AgentWorld-397B-A17B 在整体模拟质量上取得了最高分，超越了 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。

你懂的，能在自家评测上正面硬刚这几个巨头的，至少说明底子不虚。当然，这也跟它是专门为「模拟」场景训练的有关，通用模型在这类任务上天然吃亏。

Qwen-AgentWorld 的团队探索了两种使用范式的可能性：

第一种，作为解耦的环境模拟器。

什么意思呢？就是拿它当「沙盒」用。智能体需要在一个环境里试错学习，但真实环境太贵、太慢、太稀缺了。你训练一个自动驾驶 AI，总不能在真实道路上让车撞来撞去吧？Qwen-AgentWorld 可以充当一个「可控模拟器」，给智能体提供一个几乎无限次试错的虚拟训练场。

团队在 Tool Decathlon、MCPMark 和 WideSearch 上验证了，用这种可控模拟器训练的智能体，表现甚至优于只在真实环境里训练的——因为模拟环境里你可以控制变量、构造极端情况，反而比真实环境练得更全面。

第二种，作为统一的智能体基础模型。

更有意思的是，他们发现用语言世界模型的「预热训练」，可以直接迁移到多轮智能体任务上，而且不需要做任何额外的 RL 微调。测试覆盖了七个基准，其中三个完全不在训练集里——这就很能说明泛化能力了。

这套路线挺值得关注的：

三个步骤环环相扣，而非简单堆叠。特别是 CPT 这一步直接决定了「原生世界模型」的属性——不是事后贴标签，而是一开始就带着「我要理解世界」的目标在训练。

模型权重和评测基准都已在 Hugging Face 和 ModelScope 上开源了（搜 Qwen-AgentWorld 就能找到）。AgentWorldBench 以按领域划分的 JSONL 文件形式发布，每条都有真实观测数据做对照。

如果你做 Agent 相关的开发或者研究，不妨下来跑跑看。至少对我个人来说，能在一个模型里模拟 MCP 协议、浏览器和 Android 三种完全不同的交互方式，这种「大一统」的思路本身就很有启发。

某天 AI 不再需要真实环境来训练，而是在自己构建的世界模型里完成所有试错——想想还挺科幻的。

你在项目里用过语言世界模型吗？或者你对世界模型这条路怎么看？评论区聊聊。