北京大学 | 生成未必理解:基于扩散模型能否实现视觉世界模型

324 阅读4分钟

大家好,我是吾鳴。

今天吾鳴要给大家分享一份北京大学出品的报告,报告主要从扩散模型进展、生成与理解的割裂、多模态统一框架的必要性、模型架构与争议以及技术实现与优化等多个方面展开,报告内容干货满满,醍醐灌顶,文末附上完整版下载地址。

内容摘要

引言与背景:探讨生成模型(尤其是扩散模型)是否真正理解视觉世界,引用费曼名言引发对生成与理解关系的思考,通过具体案例(如逻辑错误生成)质疑扩散模型的理解能力。

扩散模型进展:对比扩散模型与GANs的性能优势,梳理学术进展(如DDIM、LDM、DiT等)和应用突破(Stable Diffusion、Sora、MidJourney),强调扩散模型在图像/视频生成中的主导地位。

生成与理解的割裂:指出视觉生成(扩散模型)与视觉理解(大语言模型)在建模方式、参数规模上的差异,强调二者目标与能力分离,生成未必理解、理解难以生成。

世界模型的统一路径:提出多模态统一框架的必要性,列举代表性工作(如Video-LLaVA、Open-Sora Plan),强调开源社区贡献,探索物理先验(相机位姿、全景3D)注入生成模型的实践。

架构争议与挑战:讨论视觉生成架构是否收敛于扩散模型,对比自回归模型(如LlamaGen)与扩散模型的性能,提出自回归架构可能成为统一框架的关键,但需解决模态对齐、任务冲突、离散/连续表示等问题。

技术实现与优化:介绍硬件加速工具(如异腾基础软件)、高效注意力机制(稀疏注意力、MoE/MoH架构)对统一框架的支撑,分析长视频压缩与训练效率的优化策略。

未来方向与总结:总结生成与理解未统一的现状,强调自回归架构的潜力及Sora类模型的意义,提出核心争议点(完全自回归还是损失函数统一、离散与连续模态选择),呼吁探索多模态联合训练与压缩智能。

精彩内容

下载地址:kdocs.cn/l/ci1DfElGC…