项目概述
Wan2.1是一套全面的开源视频生成模型,由Wan AI团队开发,旨在推动视频生成技术的边界。该项目在GitHub上开源(Wan-Video/Wan2.1),已获得3.7k星标和近300次fork,展现了其在AI视频生成领域的重要影响力。
Wan2.1不仅是一个单一模型,而是一套完整的视频基础模型套件,支持多种视频生成任务,包括文本到视频、图像到视频、视频编辑等。项目采用Apache-2.0许可证,允许开发者自由使用和修改。
核心特性
1. 卓越性能(SOTA Performance)
Wan2.1在多个基准测试中持续超越现有的开源模型,甚至能与一些最先进的商业解决方案相媲美。其生成的视频质量、流畅度和细节表现都达到了行业领先水平。
2. 支持消费级GPU
Wan2.1的T2V-1.3B模型仅需8.19 GB显存,使其能在大多数消费级GPU上运行。在RTX 4090上,无需使用量化等优化技术,即可在约4分钟内生成5秒钟的480P视频。这大大降低了高质量视频生成的硬件门槛。
3. 多任务能力
Wan2.1在多种视频生成任务中表现出色:
- 文本到视频(Text-to-Video)
- 图像到视频(Image-to-Video)
- 视频编辑(Video Editing)
- 文本到图像(Text-to-Image)
- 视频到音频(Video-to-Audio)
这种多功能性使其成为视频生成领域的全能选手,能够满足不同场景的需求。
4. 视觉文本生成
Wan2.1是首个能够同时生成中文和英文文本的视频模型,具有强大的文本生成能力,大大增强了其在实际应用中的价值。
5. 强大的视频VAE
Wan-VAE提供了卓越的效率和性能,能够编码和解码任意长度的1080P视频,同时保留时间信息,为视频和图像生成提供了理想的基础。
6. 复杂动作生成
Wan2.1特别擅长生成具有复杂动作的逼真视频,包括广泛的身体动作、复杂旋转、动态场景转换和流畅的相机运动。支持的动作类型包括:
- 嘻哈舞蹈(Hip-Hop Dancing)
- 骑自行车(Cycling)
- 华尔兹舞蹈(Waltz Dance)
- 拳击(Boxing)
- 摩托车赛车(Motorcycle Racing)等
技术创新
Wan2.1基于主流扩散变换器范式构建,通过一系列创新实现了生成能力的显著提升:
- 新颖的时空变分自编码器(VAE):提高了视频编码和解码的效率与质量
- 可扩展的预训练策略:优化了模型训练过程
- 大规模数据构建:为模型提供了丰富多样的训练数据
- 自动化评估指标:确保了模型输出的一致性和高质量
这些技术创新共同增强了模型的性能和多功能性,使Wan2.1在视频生成领域处于领先地位。
模型版本与支持
Wan2.1提供了多种模型版本,适应不同的需求和硬件条件:
模型 | 分辨率 | 说明 |
---|---|---|
T2V-14B | 480P/720P | 文本到视频,14B参数 |
T2V-1.3B | 480P | 文本到视频,1.3B参数,适合消费级GPU |
I2V-14B-720P | 720P | 图像到视频,14B参数 |
I2V-14B-480P | 480P | 图像到视频,14B参数 |
注意:1.3B模型理论上能够生成720P分辨率的视频,但由于在这个分辨率上的训练有限,结果通常不如480P稳定。为获得最佳性能,建议使用480P分辨率。
快速开始
安装
# 克隆仓库
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
# 安装依赖
# 确保torch版本 >= 2.4.0
pip install -r requirements.txt
模型下载
可以通过Huggingface或ModelScope下载模型:
# 使用huggingface-cli
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./
# 或使用modelscope
pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-14B --local_dir ./
文本到视频生成
基本使用(不使用提示扩展)
# 单GPU推理
python generate.py --task t2v-14B --size 1280*720 --ckpt_path /path/to/model
# 如果遇到OOM问题,可以使用以下选项
python generate.py --task t2v-14B --size 1280*720 --ckpt_path /path/to/model --offload_model True --t5_cpu
使用提示扩展(提高视频质量)
提示扩展可以有效丰富生成视频的细节,进一步提高视频质量。Wan2.1提供两种提示扩展方法:
- 使用Dashscope API:
# 设置环境变量
DASH_API_KEY=your_key python generate.py --task t2v-14B --size 1280*720 --ckpt_path /path/to/model --prompt_extend_method 'dashscope'
- 使用本地模型:
python generate.py --task t2v-14B --size 1280*720 --ckpt_path /path/to/model --prompt_extend_method 'local' --prompt_extend_model "Qwen/Qwen2.5-7B-Instruct"
图像到视频生成
类似于文本到视频,图像到视频也支持有无提示扩展的生成方式:
# 基本使用
python generate.py --task i2v-14B --size 1280*720 --ckpt_path /path/to/model --image_path /path/to/image
# 使用提示扩展
python generate.py --task i2v-14B --size 1280*720 --ckpt_path /path/to/model --image_path /path/to/image --prompt_extend_method 'local' --prompt_extend_model "Qwen/Qwen2.5-VL-7B-Instruct"
注意:对于图像到视频任务,size
参数表示生成视频的区域,其宽高比将遵循原始输入图像的宽高比。
使用Gradio演示
项目还提供了Gradio界面,方便用户直观地体验模型功能:
cd gradio
# 使用Dashscope API进行提示扩展
DASH_API_KEY=your_key python t2v_14B_singleGPU.py --prompt_extend_method 'dashscope'
# 或使用本地模型进行提示扩展
python t2v_14B_singleGPU.py --prompt_extend_method 'local'
最新进展
- 2025年2月25日:发布了Wan2.1的推理代码和权重
- 2025年2月27日:Wan2.1已集成到ComfyUI中,进一步扩展了其应用场景
未来规划
Wan AI团队正在持续改进Wan2.1,计划中的功能包括:
- Diffusers集成
- 更多分辨率和模型大小的支持
- 性能优化和新功能开发
结语
Wan2.1代表了开源视频生成技术的重要里程碑,通过其卓越的性能、广泛的任务支持和对消费级硬件的友好性,为创作者和开发者提供了强大的视频生成工具。随着项目的不断发展和社区的积极参与,我们可以期待Wan2.1在未来带来更多令人惊叹的视频生成能力。
更多信息请访问:
- GitHub仓库:github.com/Wan-Video/W…
- 官方网站:wanxai.com/