北京大学 | 生成未必理解：基于扩散模型能否实现视觉世界模型大家好，我是吾鳴。今天吾鳴要给大家分享一份北京大学出品的报

大家好，我是吾鳴。

今天吾鳴要给大家分享一份北京大学出品的报告，报告主要从扩散模型进展、生成与理解的割裂、多模态统一框架的必要性、模型架构与争议以及技术实现与优化等多个方面展开，报告内容干货满满，醍醐灌顶，文末附上完整版下载地址。

内容摘要

引言与背景：探讨生成模型（尤其是扩散模型）是否真正理解视觉世界，引用费曼名言引发对生成与理解关系的思考，通过具体案例（如逻辑错误生成）质疑扩散模型的理解能力。

扩散模型进展：对比扩散模型与GANs的性能优势，梳理学术进展（如DDIM、LDM、DiT等）和应用突破（Stable Diffusion、Sora、MidJourney），强调扩散模型在图像/视频生成中的主导地位。

生成与理解的割裂：指出视觉生成（扩散模型）与视觉理解（大语言模型）在建模方式、参数规模上的差异，强调二者目标与能力分离，生成未必理解、理解难以生成。

世界模型的统一路径：提出多模态统一框架的必要性，列举代表性工作（如Video-LLaVA、Open-Sora Plan），强调开源社区贡献，探索物理先验（相机位姿、全景3D）注入生成模型的实践。

架构争议与挑战：讨论视觉生成架构是否收敛于扩散模型，对比自回归模型（如LlamaGen）与扩散模型的性能，提出自回归架构可能成为统一框架的关键，但需解决模态对齐、任务冲突、离散/连续表示等问题。

技术实现与优化：介绍硬件加速工具（如异腾基础软件）、高效注意力机制（稀疏注意力、MoE/MoH架构）对统一框架的支撑，分析长视频压缩与训练效率的优化策略。

未来方向与总结：总结生成与理解未统一的现状，强调自回归架构的潜力及Sora类模型的意义，提出核心争议点（完全自回归还是损失函数统一、离散与连续模态选择），呼吁探索多模态联合训练与压缩智能。