大家好,我是吾鳴。
今天吾鳴要给大家分享一份北京大学出品的报告,报告主要从扩散模型进展、生成与理解的割裂、多模态统一框架的必要性、模型架构与争议以及技术实现与优化等多个方面展开,报告内容干货满满,醍醐灌顶,文末附上完整版下载地址。
内容摘要
引言与背景:探讨生成模型(尤其是扩散模型)是否真正理解视觉世界,引用费曼名言引发对生成与理解关系的思考,通过具体案例(如逻辑错误生成)质疑扩散模型的理解能力。
扩散模型进展:对比扩散模型与GANs的性能优势,梳理学术进展(如DDIM、LDM、DiT等)和应用突破(Stable Diffusion、Sora、MidJourney),强调扩散模型在图像/视频生成中的主导地位。
生成与理解的割裂:指出视觉生成(扩散模型)与视觉理解(大语言模型)在建模方式、参数规模上的差异,强调二者目标与能力分离,生成未必理解、理解难以生成。
世界模型的统一路径:提出多模态统一框架的必要性,列举代表性工作(如Video-LLaVA、Open-Sora Plan),强调开源社区贡献,探索物理先验(相机位姿、全景3D)注入生成模型的实践。
架构争议与挑战:讨论视觉生成架构是否收敛于扩散模型,对比自回归模型(如LlamaGen)与扩散模型的性能,提出自回归架构可能成为统一框架的关键,但需解决模态对齐、任务冲突、离散/连续表示等问题。
技术实现与优化:介绍硬件加速工具(如异腾基础软件)、高效注意力机制(稀疏注意力、MoE/MoH架构)对统一框架的支撑,分析长视频压缩与训练效率的优化策略。
未来方向与总结:总结生成与理解未统一的现状,强调自回归架构的潜力及Sora类模型的意义,提出核心争议点(完全自回归还是损失函数统一、离散与连续模态选择),呼吁探索多模态联合训练与压缩智能。