学习感知物理世界：视觉智能与混合表征本文访谈了斯坦福大学助理教授Jiajun Wu，探讨其研究如何构建能够感知、推理并与

学习感知物理世界：专访Jiajun Wu

在最新一期ACM SIGAI的《AI Matters》中，Ella Scallan与Jiajun Wu进行访谈，了解他的研究、该领域的发展以及他最为兴奋的未来方向。

您的研究领域是什么？

从高层面上看，我的研究主题自博士论文以来没有太大变化。一直是物理场景理解的问题——构建能够看见、推理并与物理世界交互的机器。除了学习算法，人工智能系统在其表征中需要哪些抽象层次，这些抽象层次又从何而来？我的目标是回答这些基本问题，从自然界（即物理世界本身）和人类认知中汲取灵感。

您工作的背景是什么？

构建具有视觉和物理智能的机器几十年来一直是人工智能的指路明灯。尽管取得了进展，物理场景理解仍未解决，因为它需要对几何、物理和功能进行整体解释——这超出了任何单一学科的范畴。这些领域的数据仍然稀缺；因此简单地扩展模型规模是不可行的。需要恰当的表征和学习范式，以实现数据高效、灵活且可泛化的物理场景理解。

您的方法论是什么？

构建物理世界表征的方法是将自下而上的识别模型和高效推理算法与自上而下的图模型、生成模型以及神经的、解析的（通常是可微的）和混合仿真引擎相结合。研究开发了这些技术（例如提出新型深度网络和混合物理模拟器）；还进一步探索了基于跨学科研究来组合这些技术的创新方法。

您的研究目前如何发展？

在研究中，始终致力于从原始视觉数据中推断、表征和使用物理世界结构，同时不牺牲神经网络的表达能力。最近，随着视觉人工智能模型的快速发展，持续研究这种结构信息发挥什么作用，或者我们是否仍然需要它。最近在这一方向上的努力可分为两条技术路径：利用物理世界结构作为强大的归纳偏置，或者将预训练的视觉或多模态基础模型锚定到物理世界中。现在可以构建能够推断物体形状、纹理、材质和物理属性以及场景上下文的视觉智能，并将其应用于可控的、动作条件下的4D视觉世界重建、生成和交互。

您研究的主要应用是什么？

计算机视觉的主要用途当然是机器人技术，但也可用于娱乐（电影、游戏）、设计和创意领域。例如，最近的一篇论文引起了游戏设计师的极大兴趣。

您如何看待该领域近年来的发展？

人工智能的进步或“炒作”引发了许多关于学术界“身份危机”的讨论——工业界的工作对刚毕业的博士变得更有吸引力；鉴于资源在多维度上的极端不平衡，一些人开始质疑学术研究的作用。作为学术研究者，必须重新思考学术研究仍有探索价值（相信仍然很多）的定位、重点领域和视角，以便基础、长期的研究能够继续发光。

哪些未来方向或开放性问题让您最兴奋？

鉴于基础模型的激动人心的进展，一直在探索如何将它们适配于物理世界建模。除了前面提到的两种范式，还可能受益于持续学习，通过与真实世界的交互来优化已发现的物理世界，甚至基础模型本身。持续学习范式（包括感知、交互和符号抽象的迭代循环）将更好地利用来自基础模型的常识知识。

这种交互式学习是互利的。发现出的物理世界模型通过基础模型对交互结果的解释而不断改进；同时，从交互中获得的新知识会反馈给基础模型，使其能够持续预训练，以实现更好的压缩、总结和未来推理。这建立了一个协同演化循环，世界模型和基础模型都变得更有能力。

关于Jiajun Wu

Jiajun Wu是某机构计算机科学系助理教授，同时兼任心理学系助理教授，从事计算机视觉、机器学习、机器人技术和计算认知科学研究。他在某机构获得EECS博士学位。Wu的研究获得了多个奖项和荣誉。FINISHED