Mochi 1 预览版作为一个先进的视频生成模型目前处于开放状态。在对其进行初步评估时发现,该模型具备高保真度的动态效果以及强大的指令遵循性,它的出现极大地缩减了封闭和开放视频生成系统之间的差距。
先看效果
官方样例
另一个样例
PROMPT:A lion with fire burning on its body runs to the left side of the picture. It is gradually engulfed by the fire and becomes a ball of fire. The fire gradually turns into the letter WOW. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere.
环境准备
使用cuda docker!不要在裸机上安装,会有很多坑
参考这个教程准备好基础环境
下载模型
使用磁力链接:magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
或者使用huggingface进行下载,国内环境可以参考教程
进入容器之后,首先安装环境,可以不必安装uv,直接用容器自带的环境即可
需要注意的是,在启动容器的时候需要加上共享内存容量的参数,默认是64MB不够,这里提供一个启动命令作为参考
docker run -itd --shm-size=10.24gb --gpus=all -p 9777:9777 --env NVIDIA_DISABLE_REQUIRE=1 -v ~/.cache:/root/.cache -v /tmp/genmoai:/home/workspace/genmoai -v /tmp/genmo:/home/workspace/
genmomodels orange_cuda:latest /bin/bash
运行推理
CUDA_VISIBLE_DEVICES=6,5,4,7 python3 -m mochi_preview.gradio_ui --model_dir /home/workspace/genmomodels/mochi-1-preview
模型架构
Mochi 1 在开源视频生成方面代表了重大进步,它具有一个基于我们新颖的非对称扩散变压器(AsymmDiT)架构构建的 100 亿参数扩散模型。完全从零开始训练,它是有史以来公开发布的最大的视频生成模型。最棒的是,它是一个简单且可修改的架构。此外,我们正在发布一个推理工具包,其中包括一个高效的上下文并行实现。
与 Mochi 1 一起,我们正在开源我们的视频 AsymmVAE。我们使用非对称编码器 - 解码器结构来构建一个高效的高质量压缩模型。我们的 AsymmVAE 对视频进行因果压缩,使其大小缩小 128 倍,通过 8x8 的空间压缩和 6x 的时间压缩到一个 12 通道的潜在空间。
AsymmVAE 模型规格
| Params Count | Enc Base Channels | Dec Base Channels | Latent Dim | Spatial Compression | Temporal Compression |
|---|---|---|---|---|---|
| 362M | 64 | 128 | 12 | 8x8 | 6x |
觉推理上,有效地处理用户提示和压缩视频标记。AsymmDiT 通过多模态自注意力共同关注文本和视觉标记,并为每种模态学习单独的 MLP 层,类似于 Stable Diffusion 3。然而,我们的视觉流通过更大的隐藏维度拥有几乎是文本流四倍的参数数量。为了在自注意力中统一模态,我们使用非方形的 QKV 和输出投影层。这种不对称设计降低了推理的内存需求。许多现代扩散模型使用多个预训练语言模型来表示用户提示。相比之下,Mochi 1 仅使用单个 T5-XXL 语言模型对提示进行编码。
AsymmDiT 模型规格
| Params Count | Num Layers | Num Heads | Visual Dim | Text Dim | Visual Tokens | Text Tokens |
|---|---|---|---|---|---|---|
| 10B | 48 | 24 | 3072 | 1536 | 44520 | 256 |