AI 视频的 DeepSeek 时刻！开源 13B 模型生成提速 30 倍，5090 跑出好莱坞特效LTXV-Video

AI 视频的 DeepSeek 时刻什么时候来？没想到吧，这就来了。

LTXV-Video：实时视频潜空间扩散模型

官方透露，LTX Video 做到更流畅的运动和更一致的帧间连贯性，关键在于多尺度渲染技术，即同时以多种空间分辨率分析场景，保留精细细节的同时理解大规模结构。

如下面的例子，可以看到从左到右人物脸上的细节越来越丰富。

从团队几个月前发布的 2B 参数模型论文也可以看出，训练阶段就同时使用了多种分辨率和时长组合的数据。

训练时通过调整原始视频大小，使输入样本包含大致相同数量的 token，并采用随机丢弃 token 的策略，避免复杂的 token 填充或打包操作，保持数据多样性。

上一代 2B 参数的模型就以速度和效率见长，能够以超过实时的速度生成高质量视频，在 H100 GPU 上仅需 2 秒就能生成 5 秒、24 帧每秒、768×512 分辨率的视频。

优化生成速度的秘诀在于一种整体式 Latent Diffusion 方法，将 Video-VAE 和去噪 Transformer 的任务无缝融合，在它们之间共享去噪目标。

另外 Video VAE 部分对时空维度进行 32×32×8 的下采样压缩，将高分辨率的视频数据转换到低分辨率的潜在空间进行处理，通过空间和时间压缩来降低冗余。

它实现了 1:192 的压缩比，超过当时的主流开源模型如 MovieGen、CogVideoX 等的 1:48 或 1:96 的压缩比。

为实现这种高压缩率，团队将图像块化操作（patchify）从 Transformer 的输入移到了 VAE 的输入，使每个 token 能够表示更多的像素信息，帮助 Transformer 计算全时空自注意力（full spatiotemporal self-attention）。

高压缩率虽好，但会限制对细节的表示能力。为了解决这个问题，LTX-Video 还采取了多种新策略。

在训练 Video VAE 时引入 GAN，减少高压缩率下 L2 loss 产生的模糊问题。

为此提出改进的 Reconstruction GAN，判别器同时接收原始样本和重建样本，通过判断哪个是原始的、哪个是重建的，简化了判别器的任务，提高了其引导生成器的能力，使生成的视频在保持与原始样本相似性的同时，能更有效地平衡保真度和感知质量。

此外还有一些小的改动如下：

多层噪声注入：受 StyleGAN 启发，在 VAE 解码器的多个层注入噪声，允许生成更多样化的高频细节。
统一对数方差：使用宽潜空间（大量 channels）时，标准 KL 损失会导致不均匀的利用。团队使用了所有潜通道共享的单一预测对数方差，均匀分配 KL 损失的影响。
视频 DWT 损失：引入了 spatio-temporal Discrete Wavelet Transform (DWT) loss，确保高频细节的重建。

LTX-Video 同时支持文本生成视频和图像生成视频两种能力。

对于文本条件生成，团队使用了预训练的 T5-XXL 文本编码器生成初始文本嵌入，并采用了交叉注意力机制，而非 MM-DiT 方法。

而对于图像条件生成，他们扩展了 Open-Sora 的方法，利用扩散时间步作为条件指示器，允许无缝条件化视频的任何部分。

这种方法不需要特殊的 tokens 或专门为图像到视频任务训练的模型，大大简化了流程。