论文名称:LongVie 2: Multimodal Controllable Ultra-Long Video World Model 论文作者:Jianxiong Gao, Zhaoxi Chen, Xian Liu, Junhao Zhuang, Chengming Xu, Jianfeng Feng, Yu Qiao, Yanwei Fu, Chenyang Si, Ziwei Liu Github地址:vchitect.github.io/LongVie2-pr… 论文链接:www.lab4ai.cn/paper/detai…
论文简介
该论文提出了 LongVie 2,一款多模态可控超长视频世界模型,旨在解决现有视频生成模型在长时生成中存在的可控性不足、视觉质量退化与时间一致性差的核心问题。模型采用三阶段渐进式训练策略:通过融合稠密(深度图)与稀疏(关键点)控制信号提升语义级可控性;引入退化感知训练弥合训练与长时推理的领域差距;借助历史上下文引导及多频率损失函数保障跨片段时间连贯性。同时,构建了包含 100 个一分钟以上高分辨率视频的 LongVGenBench 基准数据集,为超长可控视频生成提供标准化评估工具。实验结果表明,LongVie 2 在视觉保真度、可控性与时间一致性上均达到当前最优水平,可稳定生成 3-5 分钟的超长视频,准确模拟真实物理现象,为视频世界建模领域的发展奠定了重要基础。
AI导读:
LongVie 2论文核心内容总结
1. 研究背景
视频生成技术在扩散模型推动下取得显著进展,但视频世界模型的发展仍面临关键挑战。现有模型的可控性局限于低层次调整,缺乏全局语义级控制;且在生成超长时间视频(如超过一分钟)时,易出现视觉质量下降和时间漂移问题,难以兼顾细粒度可控性、长期视觉保真度与时间一致性。同时,当前缺乏专门用于评估超长可控视频生成的基准数据集,制约了相关研究的推进。
2. 研究目的
针对现有视频世界模型的可控性不足与长时生成稳定性差的问题,提出一种端到端自回归框架LongVie 2,实现兼具可控性、长期视觉质量与时间一致性的超长视频生成。构建专用基准数据集LongVGenBench,为超长可控视频生成的评估提供统一标准,推动视频世界建模向通用时空智能迈进。
3. 本文核心贡献
- 提出LongVie 2框架,基于预训练视频扩散骨干网络,通过三阶段渐进式训练实现超长可控视频生成,支持时长3-5分钟的连续生成。
- 设计多模态引导、退化感知训练与历史上下文引导三大核心策略,分别提升模型的可控性、长时视觉质量与时间一致性。
- 构建LongVGenBench基准数据集,包含100个一分钟以上的高分辨率视频,覆盖多样真实与合成场景,填补超长视频生成评估的空白。
- 实验验证模型在可控性、时间连贯性和视觉保真度上的SOTA性能,为视频世界模型的发展提供关键技术支撑。
4. 研究方法
- 三阶段训练策略:第一阶段融入稠密(深度图)与稀疏(关键点)多模态控制信号,增强语义级可控性;第二阶段对输入帧施加退化处理,弥合训练与长时推理的领域差距;第三阶段引入历史帧作为上下文,通过权重分配与多频率损失函数保障跨片段时间一致性。
- 辅助优化机制:采用统一噪声初始化与全局归一化策略,提升跨片段稳定性;设计特征级与数据级退化平衡多模态控制信号的影响。
- 实验设计:基于Wan2.1-14B作为骨干网络,使用ACID、MovieNet等数据集训练,在LongVGenBench上与主流可控视频生成模型、世界模型对比,通过客观指标(SSIM、LPIPS等)与60人参与的主观评估验证性能。
5. 研究结果
- LongVie 2在LongVGenBench上的各项指标均居SOTA,视觉质量(A.Q. 58.47%、I.Q. 69.77%)、可控性(SSIM 0.529、LPIPS 0.295)与时间一致性(S.C. 91.05%、B.C. 92.45%)全面超越基线模型。
- 主观评估中,模型在视觉质量、提示一致性、时间一致性等五大维度均获最高评分,证实其优越的感知性能。
- 能够稳定生成3-5分钟的超长视频,准确模拟真实物理现象,展现出强大的世界建模能力; ablation实验验证三阶段训练与辅助机制对性能提升的必要性。
6. 总结与展望
总结
LongVie 2通过三阶段渐进式训练策略与多模态控制机制,有效解决了超长视频生成中的可控性、视觉质量与时间一致性难题,构建的LongVGenBench为该领域提供了标准化评估工具。实验表明,模型在超长可控视频生成任务上达到SOTA水平,为视频世界建模奠定了重要基础。
展望
局限性在于实验均在352×640分辨率下进行,难以展现细粒度细节与高频结构。未来将拓展至更高分辨率,提升视觉保真度;进一步丰富多模态控制信号类型,增强场景适应性;开发面向特定领域的变体模型,推动技术在实际场景中的落地应用。