复旦等提出突破视频生成长度极限新模型论文名称：LongVie 2: Multimodal Controllable Ul

论文名称：LongVie 2: Multimodal Controllable Ultra-Long Video World Model 论文作者：Jianxiong Gao, Zhaoxi Chen, Xian Liu, Junhao Zhuang, Chengming Xu, Jianfeng Feng, Yu Qiao, Yanwei Fu, Chenyang Si, Ziwei Liu Github地址：vchitect.github.io/LongVie2-pr… 论文链接：www.lab4ai.cn/paper/detai…

论文简介

该论文提出了 LongVie 2，一款多模态可控超长视频世界模型，旨在解决现有视频生成模型在长时生成中存在的可控性不足、视觉质量退化与时间一致性差的核心问题。模型采用三阶段渐进式训练策略：通过融合稠密（深度图）与稀疏（关键点）控制信号提升语义级可控性；引入退化感知训练弥合训练与长时推理的领域差距；借助历史上下文引导及多频率损失函数保障跨片段时间连贯性。同时，构建了包含 100 个一分钟以上高分辨率视频的 LongVGenBench 基准数据集，为超长可控视频生成提供标准化评估工具。实验结果表明，LongVie 2 在视觉保真度、可控性与时间一致性上均达到当前最优水平，可稳定生成 3-5 分钟的超长视频，准确模拟真实物理现象，为视频世界建模领域的发展奠定了重要基础。

AI导读：

LongVie 2论文核心内容总结

1. 研究背景

视频生成技术在扩散模型推动下取得显著进展，但视频世界模型的发展仍面临关键挑战。现有模型的可控性局限于低层次调整，缺乏全局语义级控制；且在生成超长时间视频（如超过一分钟）时，易出现视觉质量下降和时间漂移问题，难以兼顾细粒度可控性、长期视觉保真度与时间一致性。同时，当前缺乏专门用于评估超长可控视频生成的基准数据集，制约了相关研究的推进。

2. 研究目的

针对现有视频世界模型的可控性不足与长时生成稳定性差的问题，提出一种端到端自回归框架LongVie 2，实现兼具可控性、长期视觉质量与时间一致性的超长视频生成。构建专用基准数据集LongVGenBench，为超长可控视频生成的评估提供统一标准，推动视频世界建模向通用时空智能迈进。

3. 本文核心贡献

提出LongVie 2框架，基于预训练视频扩散骨干网络，通过三阶段渐进式训练实现超长可控视频生成，支持时长3-5分钟的连续生成。
设计多模态引导、退化感知训练与历史上下文引导三大核心策略，分别提升模型的可控性、长时视觉质量与时间一致性。
构建LongVGenBench基准数据集，包含100个一分钟以上的高分辨率视频，覆盖多样真实与合成场景，填补超长视频生成评估的空白。
实验验证模型在可控性、时间连贯性和视觉保真度上的SOTA性能，为视频世界模型的发展提供关键技术支撑。

4. 研究方法

三阶段训练策略：第一阶段融入稠密（深度图）与稀疏（关键点）多模态控制信号，增强语义级可控性；第二阶段对输入帧施加退化处理，弥合训练与长时推理的领域差距；第三阶段引入历史帧作为上下文，通过权重分配与多频率损失函数保障跨片段时间一致性。
辅助优化机制：采用统一噪声初始化与全局归一化策略，提升跨片段稳定性；设计特征级与数据级退化平衡多模态控制信号的影响。
实验设计：基于Wan2.1-14B作为骨干网络，使用ACID、MovieNet等数据集训练，在LongVGenBench上与主流可控视频生成模型、世界模型对比，通过客观指标（SSIM、LPIPS等）与60人参与的主观评估验证性能。

5. 研究结果

LongVie 2在LongVGenBench上的各项指标均居SOTA，视觉质量（A.Q. 58.47%、I.Q. 69.77%）、可控性（SSIM 0.529、LPIPS 0.295）与时间一致性（S.C. 91.05%、B.C. 92.45%）全面超越基线模型。
主观评估中，模型在视觉质量、提示一致性、时间一致性等五大维度均获最高评分，证实其优越的感知性能。
能够稳定生成3-5分钟的超长视频，准确模拟真实物理现象，展现出强大的世界建模能力； ablation实验验证三阶段训练与辅助机制对性能提升的必要性。

6. 总结与展望

总结

LongVie 2通过三阶段渐进式训练策略与多模态控制机制，有效解决了超长视频生成中的可控性、视觉质量与时间一致性难题，构建的LongVGenBench为该领域提供了标准化评估工具。实验表明，模型在超长可控视频生成任务上达到SOTA水平，为视频世界建模奠定了重要基础。

展望

局限性在于实验均在352×640分辨率下进行，难以展现细粒度细节与高频结构。未来将拓展至更高分辨率，提升视觉保真度；进一步丰富多模态控制信号类型，增强场景适应性；开发面向特定领域的变体模型，推动技术在实际场景中的落地应用。