视频生成模型 - Wan

978 阅读16分钟

介绍

阿里巴巴于2025年2月开源的Wan2.1是当前视频生成领域的标杆性模型,其开源协议为Apache 2.0,提供14B(140亿参数)和1.3B(13亿参数)两个版本,覆盖文生视频(T2V)、图生视频(I2V)等多项任务。 该模型不仅在性能上超越现有开源模型,更重要的是其轻量级版本仅需 8GB 显存即可运行,大大降低了使用门槛。

官方GitHub:  github.com/Wan-Video/W…

In this repository, we present Wan2.1, a comprehensive and open suite of video foundation models that pushes the boundaries of video generation. Wan2.1 offers these key features:

  • SOTA Performance: Wan2.1 consistently outperforms existing open-source models and state-of-the-art commercial solutions across multiple benchmarks.
  • Supports Consumer-grade GPUs: The T2V-1.3B model requires only 8.19 GB VRAM, making it compatible with almost all consumer-grade GPUs. It can generate a 5-second 480P video on an RTX 4090 in about 4 minutes (without optimization techniques like quantization). Its performance is even comparable to some closed-source models.
  • Multiple Tasks: Wan2.1 excels in Text-to-Video, Image-to-Video, Video Editing, Text-to-Image, and Video-to-Audio, advancing the field of video generation.
  • Visual Text Generation: Wan2.1 is the first video model capable of generating both Chinese and English text, featuring robust text generation that enhances its practical applications.
  • Powerful Video VAE: Wan-VAE delivers exceptional efficiency and performance, encoding and decoding 1080P videos of any length while preserving temporal information, making it an ideal foundation for video and image generation.

官方博客:  wanxai.com/

在线体验: tongyi.aliyun.com/

  • 文字or图片生成视频(Text‑to‑Video) — 你一句提示词,AI 就能帮你搞出一段短动画;
  • VACE 多模态创作编辑 — 文字、图片、mask、视频等混合输入,搞定剪辑、背景替换、镜头转换;
  • Fun Control 可控动画 — 用 Canny、Depth、OpenPose 等信号精准控制动画细节;
  • InP x FLF2V 强大的首尾帧动画
  • SkyReels 元素生成视频 x 无限流视频生成
  • Phantom 多人参考生成视频 CausVid 以及 AccVid快速模型等等

Tutorial

docs.comfy.org/tutorials/v…

comfyui-wiki.com/zh/tutorial…

comfyanonymous.github.io/ComfyUI_exa…

官方模型

官方HuggingFace:  huggingface.co/Wan-AI

官方 ModelScope:  modelscope.cn/organizatio…

ComfyUI_repackaged 模型

目前 ComfyUI 已原生支持 Wan2.1,使用官方原生支持版本请升级你的 ComfyUI 到最新版本,模型下载 Comfy-Org/Wan_2.1_ComfyUI_repackaged

其中 Diffusion models Comfy-org 提供了多个版本,如果本文中官方原生版本所用模型版本对硬件要求较高,你可以选择自己需要的版本来进行使用

  • i2v 为 image to video 即 图生视频模型, t2v 为 text to video 即 文生视频模型
  • 14B、1.3B 为对应的参数量,数值越大对硬件性能要求越高
  • bf16、fp16、fp8 代表不同的精度,精度越高对硬件性能要求越高
    • 其中bf16 可能需要Ampere 架构及以上的 GPU 支持
    • fp16 受支持更广泛
    • fp8 精度最低,对硬件性能要求最低,但效果相对也会较差
  • 通常文件体积越大对设备的硬件要求也越高

从下面选择一个Diffusion models 模型文件进行下载,

Text encoders 选择一个版本进行下载,

VAE

T2V

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1_t2v_14B_fp16.safetensors              # 或者你选择的版本
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors      # 或者你选择的版本
│   └── vae/
│       └──  wan_2.1_vae.safetensors
  • 确保Load Diffusion Model节点加载了 wan2.1_t2v_1.3B_fp16.safetensors 模型
  • 确保Load CLIP节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 模型
  • 确保Load VAE节点加载了 wan_2.1_vae.safetensors 模型
  • 可以在CLIP Text Encoder节点中输入你想要生成的视频描述内容
  • 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

I2V

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1_i2v_480p_14B_fp16.safetensors         # 或者你选择的版本
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors      # 或者你选择的版本
│   └── vae/
│   │   └──  wan_2.1_vae.safetensors
│   └── clip_vision/
│       └──  clip_vision_h.safetensors                 
  • 确保Load Diffusion Model节点加载了 wan2.1_i2v_480p_14B_fp16.safetensors 模型
  • 确保Load CLIP节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 模型
  • 确保Load VAE节点加载了 wan_2.1_vae.safetensors 模型
  • 确保Load CLIP Vision节点加载了 clip_vision_h.safetensors 模型
  • Load Image节点中加载前面提供的输入图片
  • CLIP Text Encoder节点中输入你想要生成的视频描述内容,或者使用工作流中的示例
  • 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

Fun-Control

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── Wan2.1-Fun-1.3B-Control.safetensors        # 或者你选择的版本
│   ├── 📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors    # 或者你选择的版本
│   └── 📂 vae/
│   │   └── wan_2.1_vae.safetensors
│   └── 📂 clip_vision/
│       └──  clip_vision_h.safetensors                 
  • 确保Load Diffusion Model节点加载了 Wan2.1-Fun-1.3B-Control.safetensors 模型
  • 确保Load CLIP节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 模型
  • 确保Load VAE节点加载了 wan_2.1_vae.safetensors 模型
  • 确保Load CLIP Vision节点加载了 clip_vision_h.safetensors 模型
  • Load Image节点中加载前面提供的输入图片作为起始帧
  • Load Image节点上传前面提供的视频,作为控制条件
  • 可选)在CLIP Text Encoder节点中修改视频提示词
  • 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

FLF2V

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └─── wan2.1_flf2v_720p_14B_fp16.safetensors           # or FP8 version
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors           # or your chosen version
│   ├── vae/
│   │   └──  wan_2.1_vae.safetensors
│   └── clip_vision/
│       └──  clip_vision_h.safetensors
  • Ensure the Load Diffusion Model node has loaded wan2.1_flf2v_720p_14B_fp16.safetensors or wan2.1_flf2v_720p_14B_fp8_e4m3fn.safetensors
  • Ensure the Load CLIP node has loaded umt5_xxl_fp8_e4m3fn_scaled.safetensors
  • Ensure the Load VAE node has loaded wan_2.1_vae.safetensors
  • Ensure the Load CLIP Vision node has loaded clip_vision_h.safetensors
  • Upload the starting frame to the Start_image node
  • Upload the ending frame to the End_image node
  • (Optional) Modify the positive and negative prompts, both Chinese and English are supported
  • (Important) In WanFirstLastFrameToVideo we use 7201280 as default size.because it’s a 720P model, so using a small size will not yield good output. Please use size around 7201280 for good generation.
  • Click the Run button, or use the shortcut Ctrl(cmd) + Enter to execute video generation

Kijai 量化版本

目前已有社区作者制作了量化版本

T2V

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── Wan2_1-T2V-14B_fp8_e4m3fn.safetensors             # 或者你选择的版本
│   ├── text_encoders/
│   │   └─── umt5-xxl-enc-bf16.safetensors                    # 或者你选择的版本
│   └─── vae/
│       └──  Wan2_1_VAE_bf16.safetensors
  • 确保 WanVideo Vae Loader 节点加载了 Wan2_1_VAE_bf16.safetensors 模型
  • 确保 WanVideo Model Loader 节点加载了 Wan2_1-T2V-14B_fp8_e4m3fn.safetensors 模型
  • 确保 Load WanVideo T5 TextEncoder 节点加载了 umt5-xxl-enc-bf16.safetensors 模型
  • 在 WanVideo TextEncode 处输入你想要生成的视频画面提示词
  • 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

可以修改 WanVideo Empty Embeds 中的尺寸来修改画面尺寸

I2V

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── Wan2_1-I2V-14B-720P_fp8_e4m3fn.safetensors           # 或者你选择的版本
│   ├── text_encoders/
│   │   └─── umt5-xxl-enc-bf16.safetensors                       # 或者你选择的版本
│   ├── vae/
│   │   └──  Wan2_1_VAE_fp32.safetensors                         # 或者你选择的版本
│   └── clip_vision/
│       └──  clip_vision_h.safetensors 
  • 确保 WanVideo Model Loader 节点加载了 Wan2_1-I2V-14B-720P_fp8_e4m3fn.safetensors 模型
  • 确保 Load WanVideo T5 TextEncoder 节点加载了 umt5-xxl-enc-bf16.safetensors 模型
  • 确保 WanVideo Vae Loader 节点加载了 Wan2_1_VAE_fp32.safetensors 模型
  • 确保 Load CLIP Vision 节点加载了 clip_vision_h.safetensors 模型
  • 在 Load Image 节点中加载我们前面提供的输入图片
  • 保存默认或者修改 WanVideo TextEncode 提示词来调整画面效果
  • 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

Fun-Control

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── Wan2.1-Fun-1.3B-Control.safetensors        # 或者你选择的版本
│   ├── 📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors    # 或者你选择的版本
│   └── 📂 vae/
│   │   └── wan_2.1_vae.safetensors
│   └── 📂 clip_vision/
│       └──  clip_vision_h.safetensors                 
  • 确保 WanVideo Model Loader 节点加载了 Wan2.1-Fun-1.3B-Control.safetensors 模型
  • 确保 Load WanVideo T5 TextEncoder 节点加载了 umt5-xxl-enc-bf16.safetensors 模型
  • 确保 WanVideo Vae Loader 节点加载了 Wan2_1_VAE_bf16.safetensors 模型
  • 在 AIO AuxAux Preprocessor 节点中选择 OpenposePreprocessor 节点
  • 在 Load Video(Upload) 节点中上传前面我们提供的输入视频
  • 在 WanVideo TextEncode 处输入你想要生成的视频画面提示词(可不修改,保持工作流默认)
  • 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

GGUF

T2V

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1-t2v-14b-Q4_K_M.gguf             # 或者你选择的版本
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors      # 或者你选择的版本
│   └── vae/
│       └──  wan_2.1_vae.safetensors
  • 确保 Unet Loader(GGUF) 节点加载了 wan2.1-t2v-14b-Q4_K_M.gguf 模型
  • 确保Load CLIP节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 模型
  • 确保Load VAE节点加载了 wan_2.1_vae.safetensors 模型
  • 可以在CLIP Text Encoder节点中输入你想要生成的视频描述内容
  • 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

I2V

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1-i2v-14b-Q4_K_M.gguf                   # 或者你选择的版本
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors      # 或者你选择的版本
│   └── vae/
│       └──  wan_2.1_vae.safetensors
  • 确保 Unet Loader(GGUF) 节点加载了 wan2.1-i2v-14b-Q4_K_M.gguf 模型
  • 确保 Load CLIP 节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 模型
  • 确保 Load VAE 节点加载了 wan_2.1_vae.safetensors 模型
  • 确保 Load CLIP Vision 节点加载了 clip_vision_h.safetensors 模型
  • 在 Load Image 节点中加载前面提供的输入图片
  • 在 CLIP Text Encoder 节点中输入你想要生成的视频描述内容,或者使用工作流中的示例
  • 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

Fun-Control

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── wan2.1-fun-14b-control-Q4_K_M.gguf        # 或者你选择的版本
│   ├── 📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors    # 或者你选择的版本
│   └── 📂 vae/
│   │   └── wan_2.1_vae.safetensors
│   └── 📂 clip_vision/
│       └──  clip_vision_h.safetensors                 
  • 确保Unet Loader(GGUF)节点加载了 wan2.1-fun-14b-control-Q4_K_M.gguf 模型
  • 确保Load CLIP节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 模型
  • 确保Load VAE节点加载了 wan_2.1_vae.safetensors 模型
  • 确保Load CLIP Vision节点加载了 clip_vision_h.safetensors 模型
  • Load Image节点中加载前面提供的输入图片作为起始帧
  • Load Image节点上传前面提供的视频,作为控制条件
  • 可选)在CLIP Text Encoder节点中修改视频提示词
  • 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

FLF2V

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1-flf2v-14b-Q4_K_M.gguf                   # 或者你选择的版本
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors      # 或者你选择的版本
│   └── vae/
│       └──  wan_2.1_vae.safetensors
  • 确保 Unet Loader(GGUF) 节点加载了 wan2.1-flf2v-14b-Q4_K_M.gguf 模型
  • 确保 Load CLIP 节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 模型
  • 确保 Load VAE 节点加载了 wan_2.1_vae.safetensors 模型
  • 确保 Load CLIP Vision 节点加载了 clip_vision_h.safetensors 模型
  • Upload the starting frame to the Start_image node
  • Upload the ending frame to the End_image node
  • (Optional) Modify the positive and negative prompts, both Chinese and English are supported
  • (Important) In WanFirstLastFrameToVideo we use 7201280 as default size.because it’s a 720P model, so using a small size will not yield good output. Please use size around 7201280 for good generation.
  • 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

VACE

VACE 14B is an open-source unified video editing model launched by the Alibaba Tongyi Wanxiang team. Through integrating multi-task capabilities, supporting high-resolution processing and flexible multi-modal input mechanisms, this model significantly improves the efficiency and quality of video creation.

The model is open-sourced under the Apache-2.0 license and can be used for personal commercial purposes.

Here is a comprehensive analysis of its core features and technical highlights:

  • Multi-modal input: Supports multiple input forms including text, images, video, masks, and control signals
  • Unified architecture: Single model supports multiple tasks with freely combinable functions
  • Motion transfer: Generates coherent actions based on reference videos
  • Local replacement: Replaces specific areas in videos through masks
  • Video extension: Completes actions or extends backgrounds
  • Background replacement: Preserves subjects while changing environmental backgrounds

Currently VACE has released two versions - 1.3B and 14B. Compared to the 1.3B version, the 14B version supports 720P resolution output with better image details and stability.

模型

docs.comfy.org/tutorials/v…

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └─── wan2.1_vace_14B_fp16.safetensors
│   ├── 📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors # or umt5_xxl_fp16.safetensors
│   └── 📂 vae/
│       └──  wan_2.1_vae.safetensors

FusioniX

项目主页:huggingface.co/vrgamede

现在国外一个作者做了一个非常强劲的Wan融合模型 FusionX,它融合了Wan生态下的很多模型,直接拉高了Wan模型的一个层次,速度快,效果好。

这个FusionX模型里面有什么,我们来看看:

  • CausVid – 因果运动建模,实现更好的场景流和戏剧性的速度启动
  • AccVideo – 提高时间对齐和真实感以及快速启动
  • MoviiGen1.1 – 带来电影般的流畅度和照明
  • MPS Reward LoRA – 针对运动动态和细节进行调优
  • Custom LoRAs (by me) – 专注于纹理、清晰度和精细细节。(这两者都被设置为非常低的强度,影响非常小)

所以,它的画质会比普通的Wan模型好很多,,还有之前说的 VACE、Phantom 模型都支持了,基本Wan生态的模型它都有一个全套的适配,所以前面一大推的模型删了吧,以后就用FusionX这个系列就行,你们说算不算王炸。

一款最新的wan视频模型FusionX,这是一款来自社区的基于WAN 2.1 14B 模型的基础上训练的文生视频模型,是一款拥有超越之前万相开源模型的质量,几乎能给个媲美闭源模型。并且该模型融合了多个之前的社区优秀模型。在视频质量方面拥有惊艳的输出质量,特别是在:运动质量场景一致性视觉细节 3个方面。另外,该模型融合了之前很多优秀Apache 2.0/MIT开源模型,具体如下所示:

• CausVid:用于改进流动性和动态效果的因果运动建模,参见:CausVid:强烈推荐,超3倍极限视频加速!WanVACE仅需3-9步极视频生成和Pose动作迁移加速

• AccVideo:更好的时间对齐和速度提升,参见:AccVideo: 超强wan视频加速!无需追色,适用于原生Wan与VACE动作引导等加速方案

• MoviiGen1.1:电影般的流畅度和光照效果,参见:MoviiGen1.1:专业电影级视觉Wan视频!高质量运镜&真实细节&美学的AI视频模型

• [MPS Reward LoRA]:针对运动和细节进行调整

• 自定义 LoRA:用于纹理、清晰度和小细节增强,参见:VACE-14B:效果炸裂,开源AI视频里程碑!更稳定和高质量wan2.1视频一体化编辑,首尾帧&动作迁移&视频扩展

该模型能够在最少6步即可生成高质量视频,因为融合上述CausVid和AccVideo加速模型,权衡质量推荐采用8-10步生成。另外社区还包括融合VACE模型版本,能够很好的支持文生视频图生视频首尾帧图生视频姿势和深度控制动作迁移等VACE全套视频生成功能。

模型

hf-mirror.com/vrgamedevgi…

hf-mirror.com/QuantStack/…

hf-mirror.com/QuantStack/…

hf-mirror.com/QuantStack/…

• QuantStack/Wan2.1_T2V_14B_FusionX_VACE:下载模型并放置  /ComfyUI/models/unet 或者 /ComfyUI/models/diffusion_models目录

ComfyUI

当前kijai大佬的ComfyUI-WanVideoWrapper插件体验。

• ComfyUI-WanVideoWrappergithub.com/kijai/Comfy…

• FusionX-VACE融合了加速模型,能够在最少6步完成视频生成,推荐8-10步更高质,并且兼容之前的wan lora模型。另外与 SageAttn 一起使用,渲染速度还可以提升高达 50%

• 文本到视频配置参数:在文生视频应用中,需将 CGF 参数固定设置为 1 。Shift 参数 依据视频分辨率和预期效果调整:对于 1024x576 分辨率,初始值设为 1;对于 1080x720 分辨率,初始值设为 2 。若追求现实效果,建议采用较低的 Shift 值;若倾向于风格化效果,则可测试 3 至 9 的 Shift 值调度器推荐使用 uni_pc ,在部分细节要求较高的场景下,flowmatch_causvid 为替代选项。

• 图像到视频配置参数:图生视频的 CGF 参数同样设置为 1 。在大多数情况下,Shift 参数的最佳选择是 2 。调度器推荐使用 dmp++_sde/beta 。为了提升视频的运动效果并减少慢动作效果,建议将 帧数设置为 121,FPS 设置为 24 。

Wan2.2

www.stablediffusiontutorials.com/2025/07/wan…

docs.comfy.org/zh-CN/tutor…

alidocs.dingtalk.com/i/nodes/jb9…

通义万相 2.2(Wan 2.2)是阿里云推出的新一代多模态生成模型。该模型采用创新的 MoE(Mixture of Experts)架构,由高噪专家模型和低噪专家模型组成,能够根据去噪时间步进行专家模型划分,从而生成更高质量的视频内容。Wan 2.2 具备三大核心特性:影视级美学控制,深度融合专业电影工业的美学标准,支持光影、色彩、构图等多维度视觉控制;大规模复杂运动,轻松还原各类复杂运动并强化运动的流畅度和可控性;精准语义遵循,在复杂场景和多对象生成方面表现卓越,更好还原用户的创意意图。 模型支持文生视频、图生视频等多种生成模式,适用于内容创作、艺术创作、教育培训等多种应用场景。Wan2.2 提示词指南

模型亮点

  • 影视级美学控制:专业镜头语言,支持光影、色彩、构图等多维度视觉控制
  • 大规模复杂运动:流畅还原各类复杂运动,强化运动可控性和自然度
  • 精准语义遵循:复杂场景理解,多对象生成,更好还原创意意图
  • 高效压缩技术:5B版本高压缩比VAE,显存优化,支持混合训练

Wan2.2 开源模型版本

Wan2.2 系列模型基于 Apache2.0 开源协议,支持商业使用。Apache2.0 许可证允许您自由使用、修改和分发这些模型,包括商业用途,只需保留原始版权声明和许可证文本。

模型类型模型名称参数量主要功能模型仓库
混合模型Wan2.2-TI2V-5B5B支持文本生成视频和图像生成视频的混合版本,单一模型满足两大核心任务需求🤗 Wan2.2-TI2V-5B
图生视频Wan2.2-I2V-A14B14B将静态图像转换为动态视频,保持内容一致性和流畅的动态过程🤗 Wan2.2-I2V-A14B
文生视频Wan2.2-T2V-A14B14B从文本描述生成高质量视频,具备影视级美学控制和精准语义遵循🤗 Wan2.2-T2V-A14B

GGUF 版本

自定义节点 City96/ComfyUI-GGUF

WanVideoWrapper

Wan2.2 models

Wan2.1 models

Lightx2v 4steps LoRA

TI2V-5B

ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   └───wan2.2_ti2v_5B_fp16.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan2.2_vae.safetensors
  1. 确保Load Diffusion Model节点加载了 wan2.2_ti2v_5B_fp16.safetensors 模型
  2. 确保Load CLIP节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 模型
  3. 确保Load VAE节点加载了 wan2.2_vae.safetensors 模型
  4. (可选)如果你需要进行图生视频,可以使用快捷键 Ctrl+B 来启用 Load image 节点来上传图片
  5. (可选)在Wan22ImageToVideoLatent 你可以进行尺寸的设置调整,和视频总帧数 length 调整
  6. (可选)如果你需要修改提示词(正向及负向)请在序号5 的 CLIP Text Encoder 节点中进行修改
  7. 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

I2V-A14B

ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
│   │   └─── wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors
  1. 确保第一个 Load Diffusion Model节点加载了 wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors 模型
  2. 确保第二个 Load Diffusion Model节点加载了 wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors 模型
  3. 确保Load CLIP节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 模型
  4. 确保Load VAE节点加载了 wan_2.1_vae.safetensors 模型
  5. (可选)在EmptyHunyuanLatentVideo 你可以进行尺寸的设置调整,和视频总帧数 length 调整
  6. 如果你需要修改提示词(正向及负向)请在序号6 的 CLIP Text Encoder 节点中进行修改
  7. 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

T2V-A14B

ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── wan2.2_i2v_low_noise_14B_fp16.safetensors
│   │   └─── wan2.2_i2v_high_noise_14B_fp16.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors
  1. 确保第一个 Load Diffusion Model节点加载了 wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors 模型
  2. 确保第二个 Load Diffusion Model节点加载了 wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors 模型
  3. 确保Load CLIP节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 模型
  4. 确保Load VAE节点加载了 wan_2.1_vae.safetensors 模型
  5. 在 Load Image 节点上传作为起始帧的图像
  6. 如果你需要修改提示词(正向及负向)请在序号6 的 CLIP Text Encoder 节点中进行修改
  7. 可选)在EmptyHunyuanLatentVideo 你可以进行尺寸的设置调整,和视频总帧数 length 调整
  8. 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

FLF2V

  1. 在第一个 Load Image 节点上传作为起始帧的图像

  2. 在第二个 Load Image 节点上传作为起始帧的图像

  3. 在 WanFirstLastFrameToVideo 上修改尺寸设置

    • 我们默认设置了一个比较小的尺寸,防止低显存用户运行占用过多资源
    • 如果你有足够的显存,可以尝试 720P 左右尺寸
  4. 根据你的首尾帧撰写合适的提示词

  5. 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成