人人都能当造物主?从Sora到Genie 3,世界模型才是AGI的终点站

173 阅读10分钟

输入一句“灯光节期间的摩托艇”,3秒后你就可以坐上摩托艇穿梭在金光闪闪的殿宇,近距离感受灯光与江景。不仅如此,你还能随心所欲地变幻建筑设置,让灯光与建筑呈现出更加魔幻的效果,说不定还能打造出一座赛博 “洪崖洞”。

这可不是科幻电影中的情节,而是谷歌 DeepMind 最新发布的Genie 3世界模型正在实现的奇迹。2025年8月6日,谷歌DeepMind正式发布Genie 3,它被定位为全球首个支持实时交互的通用型世界模型。用户只需输入文本提示,就能生成动态三维世界,并且支持实时导航(24帧/秒)。

去年2月份,OpenAI的Sora掀起文生视频革命,让普通人一句话生成电影级画面。二者看似同属生成式AI,却存在本质分野:Sora是“看世界的导演”,Genie 3则是“玩世界的造物主”。当 AI 从单纯理解世界进化到创造世界,人类正一步步逼近通用人工智能(AGI)的终极形态 —— 世界模型。

世界模型(World Model)这一概念是由图灵奖得主、深度学习领域的先驱人物杨立昆(Yann LeCun)提出。杨立昆将世界模型定义为人工智能系统通过观察与交互自然学习世界运作规律的一种新理念,旨在推动通用人工智能(AGI)的发展。

2024年11月,清华大学发布全球首份世界模型综述,系统梳理了世界模型的发展脉络、核心能力与未来方向。这场技术狂飙中,AGI的终点站已浮现轮廓。

image.png 来源:全球科技情报服务平台AMiner www.aminer.cn/pub/6861ef7…

那么,世界模型究竟有着怎样的奥秘,它又将如何引领我们走向AGI呢?接下来我们就结合这篇综述一同探究。

当AI学会“读心术”与“预言术”:世界模型的双螺旋基因

简单来说,世界模型是AI理解世界规律、预测未来变化的 “大脑” 。但关于它该做什么,科学界一直有两种视角:有人认为,它该像人类一样 “理解当下”;也有人觉得,它更该 “预见未来”。这两种视角并非对立,反而共同构成了世界模型的核心目标:既要理解世界的动态规律,又要能预测未来的场景演化。

顺着这两个方向,研究者们探索出了世界模型的两大核心能力:“理解世界” 与 “预测未来”, 也就是构建内部表示以理解世界机制,预测未来状态以模拟和指导决策,这二者如同DNA双螺旋一般,驱动着智能不断进化。

研究总体框架

AI对世界的 “隐式理解”

一方面,是AI对世界的 “隐式理解”。就像人类会在脑子里勾勒出房间的布局,世界模型会把外部现实转化成一套抽象的 “内部语言”,以此学习世界的底层知识。在决策领域,这种能力尤为重要:比如机器人想抓杯子,它需要先 “理解” 杯子的位置、形状,以及自己的爪子该怎么动。早期的研究用 “强化学习” 让AI 在模拟环境中试错,而现在,大语言模型(LLM)成了更灵活的工具——它能用文字描述世界。

在决策中使⽤世界模型的两种⽅案

这些 “理解” 还包含了丰富的世界知识。比如,AI能掌握全球的空间知识(北京在上海北边)、局部的物理规律(推桌子会动),甚至能理解人类社会的规则(别人皱眉可能是不高兴)。这些知识藏在模型的参数里,让AI在处理任务时更具“活人感”。

世界模型⼤语⾔模型中的世界知识

AI 对未来的 “精准预测”

另一方面,是AI对未来的 “精准预测” 。这就像给AI装了一台 “时光机”,能生成未来的画面或场景。最典型的就是视频生成模型,比如Sora能根据文字生成一分钟的逼真视频,甚至能模拟出 “咬一口汉堡留下牙印” 这样的细节。但它也有短板:比如很难模拟 “因果关系”,物理规律偶尔也会 “出错”(比如物体突然漂浮)。为此,研究者们正在努力让视频生成更持久、更多样(结合图像、动作等输入)、更可控。

Genie 3的核心突破在于构建实时可交互的3D虚拟世界,用户通过文本或图像提示生成动态环境后,可实时操控场景中的元素(如移动角色、修改物体属性),系统以每秒24帧的速度响应操作,实现“边玩边改”的沉浸式体验。虽然当前Genie 3在技术本质上更接近AGI,但不可否认的是,二者都仍处于初级阶段。

视频来源于DeepMind官网

更进阶的是 “具身环境模拟” —— 不只是生成视频,而是构建一个能让AI“进去” 互动的虚拟世界。比如,模拟一个客厅,让机器人在里面练习开灯、倒水;或者模拟一个城市,让自动驾驶汽车学习应对复杂路况。这些模拟正从静态场景走向动态变化的环境,甚至能根据AI的动作实时调整,让AI在 “虚拟实习” 后更快适应现实。

将世界模型分类为交互式具⾝环境,包括室内、室外和动态环境。

产业革命:当世界模型照进现实

世界模型正从实验室走向产业前线,论文强调其“动态交互”特性是落地关键。那么,它在实际产业中究竟是如何发挥作用的呢?

在自动驾驶中,世界模型肩负着双重任务。 一方面,它要通过摄像头、激光雷达等设备 “看懂” 当下的路况,识别出红绿灯、行人等元素;另一方面,还要预测几秒钟后交通参与者的动作,例如前车是否会变道。目前,基于扩散模型的模拟器已经能够生成与真实路况几乎毫无二致的视频,为自动驾驶系统提供了在虚拟环境中 “练习” 的机会。

世界模型在⾃动驾驶中的应⽤

在机器人领域,世界模型让机器更 “聪明”: 比如家庭机器人能记住家具的位置(隐式理解),还能预判 “推椅子会撞到桌子”(未来预测)。更厉害的是,有些模型能通过离线数据学习,让机器人在现实中几小时内就学会走路,大大缩短了训练时间。

机器⼈世界模型的发展

甚至在社会模拟中,世界模型也有用武之地。 比如用大语言模型构建一个 “虚拟小镇”,里面的AI居民会聊天、工作、社交,像人类社区一样产生复杂的互动。研究者还用它模拟经济系统,看政策变化如何影响物价、就业,为现实决策提供参考。

社会拟像的代表性作品

争议与未来:世界模型的“灵魂拷问”

尽管世界模型在技术上一路突飞猛进,但争议也从未停止。在看似一片光明的发展前景背后,究竟隐藏着哪些问题?

AI还很难完全搞懂物理规律 。大型生成模型突破主要是由深度学习模型驱动的,如Transformer和Diffusion模型,这些模型本质上是数据驱动的。模拟物理规则的能⼒能否从训练数据的缩放中产⽣,这是⼀个有争议的问题。未来需要探索大型生成模型与物理规则模拟器的集成。Genie 3的一个突破点就在于能够模拟物理世界,生成水流、光照等自然现象,并与复杂环境进行交互。

仅模拟物理元素不⾜以构建⾼级世界模型。 设计一个能够模拟真实、全⾯的⼈类行为和社交互动的自主代理仍然是⼀个悬⽽未决的问题。如Genie 3无法精确模拟多个独立智能体之间的复杂。研究表明,⼈类行为模式和认知过程的理论可以为智能体工作流程的设计提供信息。此外,对⽣成的⼈类⾏为的真实性的评估标准太主观,很难说AI的行为够不够 “像人”。开发可靠且可扩展的评估方案将是另⼀个可以丰富世界模型社会维度的未来研究⽅向。

模拟和现实总有差距。 Genie 3虽然可以模拟真实世界,却无法用完美的地理精度模拟真实世界的地点,限制了其在地理信息系统中的应用。因此将训练好的具⾝智能从模拟环境转移到物理世界中非常重要,收集更细粒度的感官数据也是实现这⼀⽬标的关键⼀步。

此外,生成模型的速度、数据隐私、安全风险(比如被用来模拟危险场景)也是亟待解决的问题。

结语:人人都是“造物主”?

当Genie 3让普通人能用一句话生成可交互的3D世界,“人人都能当造物主” 的想象正从科幻照进现实。从Sora的 “导演视角” 到Genie 3的 “造物主权限”,世界模型的每一次突破都在缩短人类与 “创造世界” 的距离 —— 这种创造不是凭空捏造,而是基于对物理规律的理解、对未来变化的预判,最终实现对复杂系统的精准掌控。

这恰恰印证了一个核心命题:世界模型或许是AGI的终点站。当AI能像人类一样理解世界的底层逻辑,能预测不同选择引发的连锁反应,甚至能在虚拟空间中预演文明演化,通用智能的终极形态便有了轮廓。Genie 3的实时交互能力、对物理规则的逼近模拟,正是向这一终点迈出的关键一步。

但 “造物主” 的权力从来伴随责任。 世界模型越强大,越需要回答:如何确保虚拟世界的伦理边界?如何避免技术鸿沟加剧不平等?如何让AI的 “创造” 始终服务于人类福祉?这些问题的答案,或许比技术突破本身更能决定AGI时代的文明走向。

从Sora到Genie 3,我们看到的不仅是AI能力的跃升,更是人类对 “理解世界、改造世界” 这一永恒命题的全新探索。当世界模型真正成熟的那天,人人或许真能成为 “造物主”—— 但那时的我们,是否已准备好承担这份造物的智慧与责任? 欢迎在评论区留下你的思考。


这里是AMiner数据平台——全球领先的学术数据挖掘与分析平台,您身边的科研助手,有关学术趋势洞察、学者网络分析问题都可以与我们探讨!

网站链接:www.aminer.cn/?f=fwh_am_v…

image.png 或直接关注【AMiner Research】公众号,获取最新的AI前沿研究、行业动态和学者信息!

image.png