视频生成模型虽然可以生成一些看似符合常识的视频,但被证实目前还无法理解物理规律!
自从 Sora 横空出世,业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示,基于文本提示生成的逼真视频并不代表模型真正理解了物理世界。之后更是直言,像 Sora 这样通过生成像素来建模世界的方式注定要失败。
Keras 之父 François Chollet 则认为,Sora 这样的视频生成模型确实嵌入了「物理模型」,但问题是:这个物理模型是否准确?它能否泛化到新的情况,即那些不仅仅是训练数据插值的情形?这些问题至关重要,决定了生成图像的应用范围 —— 是仅限于媒体生产,还是可以用作现实世界的可靠模拟。最后他指出,不能简单地通过拟合大量数据来期望得到一个能够泛化到现实世界所有可能情况的模型。
此后,关于视频生成模型到底有没有在学习、理解物理规律,业界始终没有一个定论。直到近日,字节豆包大模型团队公布的一项系统性研究,为两者之间的关系「划上了不等号」。
该团队通过大规模实验发现 —— 即便依照 Scaling Law 扩大模型参数与训练数据量,模型依然无法抽象出一般物理规则,甚至连牛顿第一定律、抛物线运动都无法领会。
「视频生成模型目前就像一个只会『抄作业』的学生,可以记忆案例,但还无法真正理解物理规律,做到『举一反三』。因此,模型遇到未学习过的场景就会『犯迷糊』,生成结果与物理规则不符。」研究作者表示。
相关推文在 X 发布后,获得 Yann LeCun 点赞转发,还评价道 —— 结果虽不意外,但有人尝试研究确实是一件好事。
此外,CV 大牛谢赛宁和常年活跃的 Gary Marcus 等人也纷纷跟进关注。
-
论文标题:How Far is Video Generation from World Model: A Physical Law Perspective
-
展示页面:phyworld.github.io
图注:第一行是真实视频,第二行为模型生成的视频。
这些发现表明,单纯依赖视频表示不足以进行精确的物理建模。
团队介绍
该论文核心作者有两位,其中之一为豆包大模型团队 95 后研究员 Bingyi Kang,此前他负责的研究项目 Depth Anything 同样取得了业界的广泛关注,并被收入苹果 CoreML 库中。
据 Bingyi 分享,世界模型概念早已被提出,自 AlphaGo 诞生时,「世界模型」 一词已在业内传开,Sora 爆火后,他决定先从视频生成模型能否真正理解物理规律入手,一步步揭开世界模型机理。
这当中有三四周时间,项目毫无进展,直到一次实验,大家注意到一个很隐蔽的反常规现象,借此设计对比试验后,他们确认了「模型其实不是在总结规律,而是在匹配跟他最接近的样本」。
「做 research 往往不是说,你突然有个很好的 idea,然后你一试它就 work 了,很多时候你都是在排错。但经过一段时间的试错,你很可能突然发现某一个方向有解了。」Bingyi 表示。
尽管研究耗时 8 个月,每天对着视频中的虚拟小球做定量实验,但大家更多感受到的不是枯燥,而是「好玩」和「烧脑」,回忆这段,他感慨:「团队对基础研究给了充分的探索空间。」
另一位 00 后同学也是核心参与者之一,据他分享,本次研究是他经历过的最具挑战性、最耗时的项目,涉及对物理引擎、评测系统、实验方法的构建,非常繁琐,当中还有好几次项目「卡顿」住。不过,团队负责人和 Mentor 都给予了耐心和鼓励,「没人催赶紧把项目做完」。
关于本文介绍成果的更多详情,可关注豆包大模型团队公众号了解。