AI 视频的 DeepSeek 时刻!开源 13B 模型生成提速 30 倍,5090 跑出好莱坞特效

287 阅读4分钟

AI 视频的 DeepSeek 时刻什么时候来?没想到吧,这就来了。

LTXV-Video:实时视频潜空间扩散模型

官方透露,LTX Video 做到更流畅的运动和更一致的帧间连贯性,关键在于多尺度渲染技术,即同时以多种空间分辨率分析场景,保留精细细节的同时理解大规模结构。

如下面的例子,可以看到从左到右人物脸上的细节越来越丰富。

从团队几个月前发布的 2B 参数模型论文也可以看出,训练阶段就同时使用了多种分辨率和时长组合的数据。

训练时通过调整原始视频大小,使输入样本包含大致相同数量的 token,并采用随机丢弃 token 的策略,避免复杂的 token 填充或打包操作,保持数据多样性。

上一代 2B 参数的模型就以速度和效率见长,能够以超过实时的速度生成高质量视频,在 H100 GPU 上仅需 2 秒就能生成 5 秒、24 帧每秒、768×512 分辨率的视频。

优化生成速度的秘诀在于一种整体式 Latent Diffusion 方法,将 Video-VAE 和去噪 Transformer 的任务无缝融合,在它们之间共享去噪目标。

另外 Video VAE 部分对时空维度进行 32×32×8 的下采样压缩,将高分辨率的视频数据转换到低分辨率的潜在空间进行处理,通过空间和时间压缩来降低冗余。

它实现了 1:192 的压缩比,超过当时的主流开源模型如 MovieGen、CogVideoX 等的 1:48 或 1:96 的压缩比。

为实现这种高压缩率,团队将图像块化操作(patchify)从 Transformer 的输入移到了 VAE 的输入,使每个 token 能够表示更多的像素信息,帮助 Transformer 计算全时空自注意力(full spatiotemporal self-attention)。

高压缩率虽好,但会限制对细节的表示能力。为了解决这个问题,LTX-Video 还采取了多种新策略。

在训练 Video VAE 时引入 GAN,减少高压缩率下 L2 loss 产生的模糊问题。

为此提出改进的 Reconstruction GAN,判别器同时接收原始样本和重建样本,通过判断哪个是原始的、哪个是重建的,简化了判别器的任务,提高了其引导生成器的能力,使生成的视频在保持与原始样本相似性的同时,能更有效地平衡保真度和感知质量。

此外还有一些小的改动如下:

  • 多层噪声注入:受 StyleGAN 启发,在 VAE 解码器的多个层注入噪声,允许生成更多样化的高频细节。

  • 统一对数方差:使用宽潜空间(大量 channels)时,标准 KL 损失会导致不均匀的利用。团队使用了所有潜通道共享的单一预测对数方差,均匀分配 KL 损失的影响。

  • 视频 DWT 损失:引入了 spatio-temporal Discrete Wavelet Transform (DWT) loss,确保高频细节的重建。

LTX-Video 同时支持文本生成视频和图像生成视频两种能力。

对于文本条件生成,团队使用了预训练的 T5-XXL 文本编码器生成初始文本嵌入,并采用了交叉注意力机制,而非 MM-DiT 方法。

而对于图像条件生成,他们扩展了 Open-Sora 的方法,利用扩散时间步作为条件指示器,允许无缝条件化视频的任何部分。

这种方法不需要特殊的 tokens 或专门为图像到视频任务训练的模型,大大简化了流程。

2013 年成立的老牌团队

LTX-Video 开发团队 Lightricks 成立于 2013 年,前大模型时代有两个招牌产品,为美颜相机应用 Facetune 和视频剪辑应用 Videoleap,在苹果商店至今仍排得上号。

2023 转型 AI 后,推出 LTX Studio 视频生成平台,支持逐镜头地构建视频和时间线编辑,可以精细控制每个场景,并保持角色一致性,主要面向影视、广告和个人视频创作者。

除开源模型外,Lightricks 还提供配套的训练工具,支持微调、预处理数据集、为视频添加字幕、分割场景等使用功能。

LTX Video 13B 模型推出后开源社区也非常感兴趣,已经有人在一天之内就为其训练好了 LoRA,让不同类型角色的眼睛都能冒电光特效,引起网友围观。

感兴趣(且趁 24GB 显存)的朋友们,可以下载起来了。

Github:
github.com/Lightricks/…

论文:
arxiv.org/pdf/2501.00…

参考链接:
[1]x.com/maxescu/sta…
[2]www.lightricks.com/ltxv-docume…
[3]www.reddit.com/r/StableDif…

—  —