VideoVAE+：AI 生成视频高保真重建和跨模态重建工具，基于文本信息指导视频重建，提升视频细节质量VideoVAE

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

原文链接：mp.weixin.qq.com/s/FitaWK6Df…

🚀 快速阅读

功能：VideoVAE+ 实现了高保真视频重建和跨模态重建。
技术：采用时空分离压缩机制和跨模态注意力机制。
应用：广泛应用于视频压缩、重建、在线教育和影视后期制作。

正文（附运行示例）

VideoVAE+ 是什么

公众号: 蚝油菜花 - VideoVAEPlus

VideoVAE+ 是香港科技大学团队推出的先进跨模态视频变分自编码器（Video VAE），通过引入新的时空分离压缩机制和文本指导，实现了对大幅运动视频的高效压缩与精准重建，同时保持了良好的时间一致性和运动恢复。VideoVAE+ 在视频重建质量上全面超越了最新模型，包括英伟达的 Cosmos Tokenizer 等。

VideoVAE+ 支持高保真重建和跨模态重建，在视频重建任务中树立了新的基准。模型能够基于文本信息来指导视频的重建过程，提高了视频细节的保留能力和时间稳定性。

VideoVAE+ 的主要功能

高保真重建：VideoVAE+ 能实现卓越的图像和视频重建质量，即使在大幅运动的视频场景中也能保持高清晰度和细节。
跨模态重建：模型能够基于文本信息来指导视频的重建过程，提高了视频细节的保留能力和时间稳定性。

VideoVAE+ 的技术原理

时空分离的压缩机制：VideoVAE+ 提出了一种时序感知的空间压缩方法，有效分离空间和时间信息处理，避免因时空耦合而导致的运动伪影。
轻量级运动压缩模型：专门设计了一个模型用于时序压缩，高效捕获视频中的运动动态。
文本信息融合：利用文本到视频数据集中的文本信息作为指导，提高视频细节的保留能力和时间稳定性。
图像和视频的联合训练：通过在图像和视频数据上的联合训练，增强了模型在多任务上的重建性能和适应性。
智能特征分块：将视频的视觉特征图分割成小块（patch），并将它们作为 token 进行处理，不同层采用多种尺寸（8×8、4×4、2×2、1×1），确保每层特征的细节追踪到位。
跨模态注意力机制：首次在 Video VAE 任务上引入文本信息作为语义指导，让视觉 token（作为 Query）与文本嵌入（作为 Key 和 Value）计算跨模态注意力，提升细节重建质量。
强大的文本嵌入器：采用先进的 Flan-T5 模型，将文字转化为语义向量，为视频生成提供坚实的语义基础。

如何运行 VideoVAE+

1. 克隆仓库

git clone https://github.com/VideoVerses/VideoVAEPlus.git
cd VideoVAEPlus

2. 设置环境

创建 Conda 环境并安装依赖：

conda create --name vae python=3.10 -y
conda activate vae
pip install -r requirements.txt

3. 视频重建

运行视频重建：

bash scripts/run_inference_video.sh

4. 图像重建

运行图像重建：

bash scripts/run_inference_image.sh

资源

项目官网：yzxing87.github.io/vae/
GitHub 仓库：github.com/VideoVerses…
arXiv 技术论文：arxiv.org/pdf/2412.17…

🥦 微信公众号｜搜一搜：蚝油菜花 🥦