阿里千问团队今天扔了个重磅炸弹——Qwen-AgentWorld,号称「首个原生语言世界模型」。
这名字乍一听有点玄学,说白了就是:让大模型不只是聊天、写代码,而是学会「模拟世界」。你让它模拟一个浏览器环境,它就能像真实浏览器一样响应操作;你让它模拟一个终端,它就能给出真实的 shell 输出。
讲道理,这东西的思路挺有意思的,跟市面上那些「事后硬套」的方案不一样。
原生世界建模,不是事后补课
很多做世界模型的方法,是在一个已经训练好的通用大模型上叠一层适配层,让它「假装」自己是某个环境。但 Qwen-AgentWorld 的路线完全不同——它的环境建模能力是从继续预训练(CPT)阶段就开始训练的,而且是贯穿 CPT → SFT → RL 整个训练流程的。
这就像同样是学钢琴,别人是长大后才突击学几首曲子,它从小学就开始系统练琴了。底子不一样,上限自然也不一样。
它基于超过1000万条真实环境交互轨迹训练,这些轨迹来自真实用户在 MCP、搜索、终端、软件工程、Web 浏览器、操作系统和 Android 等七大场景中的操作记录。量级摆在这里,不是小打小闹。
一个模型管七种场景,跨领域迁移才是真本事
我个人觉得,Qwen-AgentWorld 最值得关注的点不是它有多大,而是它一个模型能覆盖这么多种完全不同的环境。
想想看,MCP(模型上下文协议)是纯协议的交互,搜索引擎有网页和 API 两种形态,终端是命令行交互,软件工程涉及到 git 和编译器,Web 有 DOM 和点击事件,OS 和 Android 更是完全不同的 GUI 体系。
以前做这种多环境模拟,得各做一个模型,或者一个模型里塞好几个子模块。Qwen-AgentWorld 用一个统一的语言模型框架就全搞定了,这意味着跨领域的知识可以互相迁移。比如说,模型在终端环境里学到的东西,可能在某些层面上帮助它理解 Web 环境的返回格式。
性能有多能打?用数据说话
这年头不拿跑分说话没人信服。阿里团队同步发布了 AgentWorldBench——一个覆盖七大领域的评测基准,每条测试样本都附带真实环境的执行观测数据作为「标准答案」。
结果呢?Qwen-AgentWorld-397B-A17B 在整体模拟质量上取得了最高分,超越了 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。
你懂的,能在自家评测上正面硬刚这几个巨头的,至少说明底子不虚。当然,这也跟它是专门为「模拟」场景训练的有关,通用模型在这类任务上天然吃亏。
两种玩法:做模拟器,还是做基座
Qwen-AgentWorld 的团队探索了两种使用范式的可能性:
第一种,作为解耦的环境模拟器。
什么意思呢?就是拿它当「沙盒」用。智能体需要在一个环境里试错学习,但真实环境太贵、太慢、太稀缺了。你训练一个自动驾驶 AI,总不能在真实道路上让车撞来撞去吧?Qwen-AgentWorld 可以充当一个「可控模拟器」,给智能体提供一个几乎无限次试错的虚拟训练场。
团队在 Tool Decathlon、MCPMark 和 WideSearch 上验证了,用这种可控模拟器训练的智能体,表现甚至优于只在真实环境里训练的——因为模拟环境里你可以控制变量、构造极端情况,反而比真实环境练得更全面。
第二种,作为统一的智能体基础模型。
更有意思的是,他们发现用语言世界模型的「预热训练」,可以直接迁移到多轮智能体任务上,而且不需要做任何额外的 RL 微调。测试覆盖了七个基准,其中三个完全不在训练集里——这就很能说明泛化能力了。
三阶段训练:CPT → SFT → RL
这套路线挺值得关注的:
-
1. 持续预训练(CPT):往模型里注入环境知识,让它理解各种环境的语法和语义
-
2. 监督微调(SFT):激活「预测下一状态」的推理能力
-
3. 强化学习(RL):打磨模拟的真实性,让模型输出的环境状态更接近真实
三个步骤环环相扣,而非简单堆叠。特别是 CPT 这一步直接决定了「原生世界模型」的属性——不是事后贴标签,而是一开始就带着「我要理解世界」的目标在训练。
拿来就能用
模型权重和评测基准都已在 Hugging Face 和 ModelScope 上开源了(搜 Qwen-AgentWorld 就能找到)。AgentWorldBench 以按领域划分的 JSONL 文件形式发布,每条都有真实观测数据做对照。
如果你做 Agent 相关的开发或者研究,不妨下来跑跑看。至少对我个人来说,能在一个模型里模拟 MCP 协议、浏览器和 Android 三种完全不同的交互方式,这种「大一统」的思路本身就很有启发。
某天 AI 不再需要真实环境来训练,而是在自己构建的世界模型里完成所有试错——想想还挺科幻的。
你在项目里用过语言世界模型吗?或者你对世界模型这条路怎么看?评论区聊聊。