视频生成模型 - Wan介绍阿里巴巴于2025年2月开源的Wan2.1是当前视频生成领域的标杆性模型，其开源协议为Ap

介绍

阿里巴巴于2025年2月开源的Wan2.1是当前视频生成领域的标杆性模型，其开源协议为Apache 2.0，提供14B（140亿参数）和1.3B（13亿参数）两个版本，覆盖文生视频（T2V）、图生视频（I2V）等多项任务。该模型不仅在性能上超越现有开源模型，更重要的是其轻量级版本仅需 8GB 显存即可运行，大大降低了使用门槛。

官方GitHub: github.com/Wan-Video/W…

In this repository, we present Wan2.1, a comprehensive and open suite of video foundation models that pushes the boundaries of video generation. Wan2.1 offers these key features:

SOTA Performance: Wan2.1 consistently outperforms existing open-source models and state-of-the-art commercial solutions across multiple benchmarks.
Supports Consumer-grade GPUs: The T2V-1.3B model requires only 8.19 GB VRAM, making it compatible with almost all consumer-grade GPUs. It can generate a 5-second 480P video on an RTX 4090 in about 4 minutes (without optimization techniques like quantization). Its performance is even comparable to some closed-source models.
Multiple Tasks: Wan2.1 excels in Text-to-Video, Image-to-Video, Video Editing, Text-to-Image, and Video-to-Audio, advancing the field of video generation.
Visual Text Generation: Wan2.1 is the first video model capable of generating both Chinese and English text, featuring robust text generation that enhances its practical applications.
Powerful Video VAE: Wan-VAE delivers exceptional efficiency and performance, encoding and decoding 1080P videos of any length while preserving temporal information, making it an ideal foundation for video and image generation.

官方博客: wanxai.com/

在线体验： tongyi.aliyun.com/

文字or图片生成视频（Text‑to‑Video） — 你一句提示词，AI 就能帮你搞出一段短动画；
VACE 多模态创作编辑 — 文字、图片、mask、视频等混合输入，搞定剪辑、背景替换、镜头转换；
Fun Control 可控动画 — 用 Canny、Depth、OpenPose 等信号精准控制动画细节；
InP x FLF2V 强大的首尾帧动画
SkyReels 元素生成视频 x 无限流视频生成
Phantom 多人参考生成视频 CausVid 以及 AccVid快速模型等等

Tutorial

docs.comfy.org/tutorials/v…

comfyui-wiki.com/zh/tutorial…

comfyanonymous.github.io/ComfyUI_exa…

官方模型

官方HuggingFace: huggingface.co/Wan-AI

官方 ModelScope: modelscope.cn/organizatio…

ComfyUI_repackaged 模型

目前 ComfyUI 已原生支持 Wan2.1,使用官方原生支持版本请升级你的 ComfyUI 到最新版本，模型下载 Comfy-Org/Wan_2.1_ComfyUI_repackaged

其中 Diffusion models Comfy-org 提供了多个版本，如果本文中官方原生版本所用模型版本对硬件要求较高，你可以选择自己需要的版本来进行使用

i2v 为 image to video 即图生视频模型， t2v 为 text to video 即文生视频模型
14B、1.3B 为对应的参数量，数值越大对硬件性能要求越高
bf16、fp16、fp8 代表不同的精度，精度越高对硬件性能要求越高
- 其中bf16 可能需要Ampere 架构及以上的 GPU 支持
- fp16 受支持更广泛
- fp8 精度最低，对硬件性能要求最低，但效果相对也会较差
通常文件体积越大对设备的硬件要求也越高

从下面选择一个Diffusion models 模型文件进行下载，

从Text encoders 选择一个版本进行下载，

VAE

wan_2.1_vae.safetensors

T2V

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1_t2v_14B_fp16.safetensors              # 或者你选择的版本
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors      # 或者你选择的版本
│   └── vae/
│       └──  wan_2.1_vae.safetensors

确保Load Diffusion Model节点加载了 wan2.1_t2v_1.3B_fp16.safetensors 模型
确保Load CLIP节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 模型
确保Load VAE节点加载了 wan_2.1_vae.safetensors 模型
可以在CLIP Text Encoder节点中输入你想要生成的视频描述内容
点击 Run 按钮，或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

I2V

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1_i2v_480p_14B_fp16.safetensors         # 或者你选择的版本
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors      # 或者你选择的版本
│   └── vae/
│   │   └──  wan_2.1_vae.safetensors
│   └── clip_vision/
│       └──  clip_vision_h.safetensors

确保Load Diffusion Model节点加载了 wan2.1_i2v_480p_14B_fp16.safetensors 模型
确保Load CLIP节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 模型
确保Load VAE节点加载了 wan_2.1_vae.safetensors 模型
确保Load CLIP Vision节点加载了 clip_vision_h.safetensors 模型
在Load Image节点中加载前面提供的输入图片
在CLIP Text Encoder节点中输入你想要生成的视频描述内容，或者使用工作流中的示例
点击 Run 按钮，或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

Fun-Control

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── Wan2.1-Fun-1.3B-Control.safetensors        # 或者你选择的版本
│   ├── 📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors    # 或者你选择的版本
│   └── 📂 vae/
│   │   └── wan_2.1_vae.safetensors
│   └── 📂 clip_vision/
│       └──  clip_vision_h.safetensors

确保Load Diffusion Model节点加载了 Wan2.1-Fun-1.3B-Control.safetensors 模型
确保Load CLIP节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 模型
确保Load VAE节点加载了 wan_2.1_vae.safetensors 模型
确保Load CLIP Vision节点加载了 clip_vision_h.safetensors 模型
在Load Image节点中加载前面提供的输入图片作为起始帧
在Load Image节点上传前面提供的视频，作为控制条件
可选）在CLIP Text Encoder节点中修改视频提示词
点击 Run 按钮，或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

FLF2V

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └─── wan2.1_flf2v_720p_14B_fp16.safetensors           # or FP8 version
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors           # or your chosen version
│   ├── vae/
│   │   └──  wan_2.1_vae.safetensors
│   └── clip_vision/
│       └──  clip_vision_h.safetensors

Ensure the Load Diffusion Model node has loaded wan2.1_flf2v_720p_14B_fp16.safetensors or wan2.1_flf2v_720p_14B_fp8_e4m3fn.safetensors
Ensure the Load CLIP node has loaded umt5_xxl_fp8_e4m3fn_scaled.safetensors
Ensure the Load VAE node has loaded wan_2.1_vae.safetensors
Ensure the Load CLIP Vision node has loaded clip_vision_h.safetensors
Upload the starting frame to the Start_image node
Upload the ending frame to the End_image node
(Optional) Modify the positive and negative prompts, both Chinese and English are supported
(Important) In WanFirstLastFrameToVideo we use 7201280 as default size.because it’s a 720P model, so using a small size will not yield good output. Please use size around 7201280 for good generation.
Click the Run button, or use the shortcut Ctrl(cmd) + Enter to execute video generation

Kijai 量化版本

目前已有社区作者制作了量化版本

量化版本: huggingface.co/Kijai/WanVi…

T2V

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── Wan2_1-T2V-14B_fp8_e4m3fn.safetensors             # 或者你选择的版本
│   ├── text_encoders/
│   │   └─── umt5-xxl-enc-bf16.safetensors                    # 或者你选择的版本
│   └─── vae/
│       └──  Wan2_1_VAE_bf16.safetensors

确保 WanVideo Vae Loader 节点加载了 Wan2_1_VAE_bf16.safetensors 模型
确保 WanVideo Model Loader 节点加载了 Wan2_1-T2V-14B_fp8_e4m3fn.safetensors 模型
确保 Load WanVideo T5 TextEncoder 节点加载了 umt5-xxl-enc-bf16.safetensors 模型
在 WanVideo TextEncode 处输入你想要生成的视频画面提示词
点击 Run 按钮，或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

可以修改 WanVideo Empty Embeds 中的尺寸来修改画面尺寸

I2V

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── Wan2_1-I2V-14B-720P_fp8_e4m3fn.safetensors           # 或者你选择的版本
│   ├── text_encoders/
│   │   └─── umt5-xxl-enc-bf16.safetensors                       # 或者你选择的版本
│   ├── vae/
│   │   └──  Wan2_1_VAE_fp32.safetensors                         # 或者你选择的版本
│   └── clip_vision/
│       └──  clip_vision_h.safetensors

确保 WanVideo Model Loader 节点加载了 Wan2_1-I2V-14B-720P_fp8_e4m3fn.safetensors 模型
确保 Load WanVideo T5 TextEncoder 节点加载了 umt5-xxl-enc-bf16.safetensors 模型
确保 WanVideo Vae Loader 节点加载了 Wan2_1_VAE_fp32.safetensors 模型
确保 Load CLIP Vision 节点加载了 clip_vision_h.safetensors 模型
在 Load Image 节点中加载我们前面提供的输入图片
保存默认或者修改 WanVideo TextEncode 提示词来调整画面效果
点击 Run 按钮，或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

Fun-Control

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── Wan2.1-Fun-1.3B-Control.safetensors        # 或者你选择的版本
│   ├── 📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors    # 或者你选择的版本
│   └── 📂 vae/
│   │   └── wan_2.1_vae.safetensors
│   └── 📂 clip_vision/
│       └──  clip_vision_h.safetensors

确保 WanVideo Model Loader 节点加载了 Wan2.1-Fun-1.3B-Control.safetensors 模型
确保 Load WanVideo T5 TextEncoder 节点加载了 umt5-xxl-enc-bf16.safetensors 模型
确保 WanVideo Vae Loader 节点加载了 Wan2_1_VAE_bf16.safetensors 模型
在 AIO AuxAux Preprocessor 节点中选择 OpenposePreprocessor 节点
在 Load Video(Upload) 节点中上传前面我们提供的输入视频
在 WanVideo TextEncode 处输入你想要生成的视频画面提示词（可不修改，保持工作流默认）
点击 Run 按钮，或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

GGUF

T2V

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1-t2v-14b-Q4_K_M.gguf             # 或者你选择的版本
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors      # 或者你选择的版本
│   └── vae/
│       └──  wan_2.1_vae.safetensors

确保 Unet Loader(GGUF) 节点加载了 wan2.1-t2v-14b-Q4_K_M.gguf 模型
确保Load CLIP节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 模型
确保Load VAE节点加载了 wan_2.1_vae.safetensors 模型
可以在CLIP Text Encoder节点中输入你想要生成的视频描述内容
点击 Run 按钮，或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

I2V

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1-i2v-14b-Q4_K_M.gguf                   # 或者你选择的版本
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors      # 或者你选择的版本
│   └── vae/
│       └──  wan_2.1_vae.safetensors

确保 Unet Loader(GGUF) 节点加载了 wan2.1-i2v-14b-Q4_K_M.gguf 模型
确保 Load CLIP 节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 模型
确保 Load VAE 节点加载了 wan_2.1_vae.safetensors 模型
确保 Load CLIP Vision 节点加载了 clip_vision_h.safetensors 模型
在 Load Image 节点中加载前面提供的输入图片
在 CLIP Text Encoder 节点中输入你想要生成的视频描述内容，或者使用工作流中的示例
点击 Run 按钮，或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

Fun-Control

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── wan2.1-fun-14b-control-Q4_K_M.gguf        # 或者你选择的版本
│   ├── 📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors    # 或者你选择的版本
│   └── 📂 vae/
│   │   └── wan_2.1_vae.safetensors
│   └── 📂 clip_vision/
│       └──  clip_vision_h.safetensors

确保Unet Loader(GGUF)节点加载了 wan2.1-fun-14b-control-Q4_K_M.gguf 模型
确保Load CLIP节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 模型
确保Load VAE节点加载了 wan_2.1_vae.safetensors 模型
确保Load CLIP Vision节点加载了 clip_vision_h.safetensors 模型
在Load Image节点中加载前面提供的输入图片作为起始帧
在Load Image节点上传前面提供的视频，作为控制条件
可选）在CLIP Text Encoder节点中修改视频提示词
点击 Run 按钮，或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

FLF2V

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1-flf2v-14b-Q4_K_M.gguf                   # 或者你选择的版本
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors      # 或者你选择的版本
│   └── vae/
│       └──  wan_2.1_vae.safetensors

确保 Unet Loader(GGUF) 节点加载了 wan2.1-flf2v-14b-Q4_K_M.gguf 模型
确保 Load CLIP 节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 模型
确保 Load VAE 节点加载了 wan_2.1_vae.safetensors 模型
确保 Load CLIP Vision 节点加载了 clip_vision_h.safetensors 模型
Upload the starting frame to the Start_image node
Upload the ending frame to the End_image node
(Optional) Modify the positive and negative prompts, both Chinese and English are supported
(Important) In WanFirstLastFrameToVideo we use 7201280 as default size.because it’s a 720P model, so using a small size will not yield good output. Please use size around 7201280 for good generation.
点击 Run 按钮，或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

VACE

VACE 14B is an open-source unified video editing model launched by the Alibaba Tongyi Wanxiang team. Through integrating multi-task capabilities, supporting high-resolution processing and flexible multi-modal input mechanisms, this model significantly improves the efficiency and quality of video creation.

The model is open-sourced under the Apache-2.0 license and can be used for personal commercial purposes.

Here is a comprehensive analysis of its core features and technical highlights:

Multi-modal input: Supports multiple input forms including text, images, video, masks, and control signals
Unified architecture: Single model supports multiple tasks with freely combinable functions
Motion transfer: Generates coherent actions based on reference videos
Local replacement: Replaces specific areas in videos through masks
Video extension: Completes actions or extends backgrounds
Background replacement: Preserves subjects while changing environmental backgrounds

Currently VACE has released two versions - 1.3B and 14B. Compared to the 1.3B version, the 14B version supports 720P resolution output with better image details and stability.

模型

docs.comfy.org/tutorials/v…

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └─── wan2.1_vace_14B_fp16.safetensors
│   ├── 📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors # or umt5_xxl_fp16.safetensors
│   └── 📂 vae/
│       └──  wan_2.1_vae.safetensors

FusioniX

项目主页：huggingface.co/vrgamede

现在国外一个作者做了一个非常强劲的Wan融合模型 FusionX，它融合了Wan生态下的很多模型，直接拉高了Wan模型的一个层次，速度快，效果好。

这个FusionX模型里面有什么，我们来看看：

CausVid – 因果运动建模，实现更好的场景流和戏剧性的速度启动
️ AccVideo – 提高时间对齐和真实感以及快速启动
MoviiGen1.1 – 带来电影般的流畅度和照明
MPS Reward LoRA – 针对运动动态和细节进行调优
✨ Custom LoRAs (by me) – 专注于纹理、清晰度和精细细节。（这两者都被设置为非常低的强度，影响非常小）

所以，它的画质会比普通的Wan模型好很多，,还有之前说的 VACE、Phantom 模型都支持了，基本Wan生态的模型它都有一个全套的适配，所以前面一大推的模型删了吧，以后就用FusionX这个系列就行，你们说算不算王炸。

一款最新的wan视频模型：FusionX，这是一款来自社区的基于WAN 2.1 14B 模型的基础上训练的文生视频模型，是一款拥有超越之前万相开源模型的质量，几乎能给个媲美闭源模型。并且该模型融合了多个之前的社区优秀模型。在视频质量方面拥有惊艳的输出质量，特别是在：运动质量、场景一致性、视觉细节 3个方面。另外，该模型融合了之前很多优秀Apache 2.0/MIT开源模型，具体如下所示：

• CausVid：用于改进流动性和动态效果的因果运动建模，参见：CausVid：强烈推荐，超3倍极限视频加速！WanVACE仅需3-9步极视频生成和Pose动作迁移加速

• AccVideo：更好的时间对齐和速度提升，参见：AccVideo: 超强wan视频加速！无需追色，适用于原生Wan与VACE动作引导等加速方案

• MoviiGen1.1：电影般的流畅度和光照效果，参见：MoviiGen1.1：专业电影级视觉Wan视频！高质量运镜&真实细节&美学的AI视频模型

• [MPS Reward LoRA]：针对运动和细节进行调整

• 自定义 LoRA：用于纹理、清晰度和小细节增强，参见：VACE-14B：效果炸裂，开源AI视频里程碑！更稳定和高质量wan2.1视频一体化编辑，首尾帧&动作迁移&视频扩展

该模型能够在最少6步即可生成高质量视频，因为融合上述CausVid和AccVideo加速模型，权衡质量推荐采用8-10步生成。另外社区还包括融合VACE模型版本，能够很好的支持文生视频、图生视频、首尾帧图生视频、姿势和深度控制动作迁移等VACE全套视频生成功能。

模型

hf-mirror.com/vrgamedevgi…

hf-mirror.com/QuantStack/…

• QuantStack/Wan2.1_T2V_14B_FusionX_VACE：下载模型并放置 /ComfyUI/models/unet 或者 /ComfyUI/models/diffusion_models目录

ComfyUI

当前kijai大佬的ComfyUI-WanVideoWrapper插件体验。

• ComfyUI-WanVideoWrapper：github.com/kijai/Comfy…

• FusionX-VACE融合了加速模型，能够在最少6步完成视频生成，推荐8-10步更高质，并且兼容之前的wan lora模型。另外与 SageAttn 一起使用，渲染速度还可以提升高达 50% 。

• 文本到视频配置参数：在文生视频应用中，需将 CGF 参数固定设置为 1 。Shift 参数 依据视频分辨率和预期效果调整：对于 1024x576 分辨率，初始值设为 1；对于 1080x720 分辨率，初始值设为 2 。若追求现实效果，建议采用较低的 Shift 值；若倾向于风格化效果，则可测试 3 至 9 的 Shift 值。调度器推荐使用 uni_pc ，在部分细节要求较高的场景下，flowmatch_causvid 为替代选项。

• 图像到视频配置参数：图生视频的 CGF 参数同样设置为 1 。在大多数情况下，Shift 参数的最佳选择是 2 。调度器推荐使用 dmp++_sde/beta 。为了提升视频的运动效果并减少慢动作效果，建议将 帧数设置为 121，FPS 设置为 24 。

Wan2.2

www.stablediffusiontutorials.com/2025/07/wan…

docs.comfy.org/zh-CN/tutor…

alidocs.dingtalk.com/i/nodes/jb9…

通义万相 2.2（Wan 2.2）是阿里云推出的新一代多模态生成模型。该模型采用创新的 MoE（Mixture of Experts）架构，由高噪专家模型和低噪专家模型组成，能够根据去噪时间步进行专家模型划分，从而生成更高质量的视频内容。Wan 2.2 具备三大核心特性：影视级美学控制，深度融合专业电影工业的美学标准，支持光影、色彩、构图等多维度视觉控制；大规模复杂运动，轻松还原各类复杂运动并强化运动的流畅度和可控性；精准语义遵循，在复杂场景和多对象生成方面表现卓越，更好还原用户的创意意图。模型支持文生视频、图生视频等多种生成模式，适用于内容创作、艺术创作、教育培训等多种应用场景。Wan2.2 提示词指南

模型亮点

影视级美学控制：专业镜头语言，支持光影、色彩、构图等多维度视觉控制
大规模复杂运动：流畅还原各类复杂运动，强化运动可控性和自然度
精准语义遵循：复杂场景理解，多对象生成，更好还原创意意图
高效压缩技术：5B版本高压缩比VAE，显存优化，支持混合训练

Wan2.2 开源模型版本

模型类型	模型名称	参数量	主要功能	模型仓库
混合模型	Wan2.2-TI2V-5B	5B	支持文本生成视频和图像生成视频的混合版本，单一模型满足两大核心任务需求	🤗 Wan2.2-TI2V-5B
图生视频	Wan2.2-I2V-A14B	14B	将静态图像转换为动态视频，保持内容一致性和流畅的动态过程	🤗 Wan2.2-I2V-A14B
文生视频	Wan2.2-T2V-A14B	14B	从文本描述生成高质量视频，具备影视级美学控制和精准语义遵循	🤗 Wan2.2-T2V-A14B

GGUF 版本

自定义节点 City96/ComfyUI-GGUF

WanVideoWrapper

Kijai/ComfyUI-WanVideoWrapper

Wan2.2 models

Kijai/WanVideo_comfy_fp8_scaled

Wan2.1 models

Kijai/WanVideo_comfy/Lightx2v

Lightx2v 4steps LoRA

Wan2.2-T2V-A14B-4steps-lora-rank64-V1

TI2V-5B

ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   └───wan2.2_ti2v_5B_fp16.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan2.2_vae.safetensors

确保Load Diffusion Model节点加载了 wan2.2_ti2v_5B_fp16.safetensors 模型
确保Load CLIP节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 模型
确保Load VAE节点加载了 wan2.2_vae.safetensors 模型
（可选）如果你需要进行图生视频，可以使用快捷键 Ctrl+B 来启用 Load image 节点来上传图片
（可选）在Wan22ImageToVideoLatent 你可以进行尺寸的设置调整，和视频总帧数 length 调整
（可选）如果你需要修改提示词（正向及负向）请在序号5 的 CLIP Text Encoder 节点中进行修改
点击 Run 按钮，或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

I2V-A14B

ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
│   │   └─── wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors

确保第一个 Load Diffusion Model节点加载了 wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors 模型
确保第二个 Load Diffusion Model节点加载了 wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors 模型
确保Load CLIP节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 模型
确保Load VAE节点加载了 wan_2.1_vae.safetensors 模型
（可选）在EmptyHunyuanLatentVideo 你可以进行尺寸的设置调整，和视频总帧数 length 调整
如果你需要修改提示词（正向及负向）请在序号6 的 CLIP Text Encoder 节点中进行修改
点击 Run 按钮，或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

T2V-A14B

ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── wan2.2_i2v_low_noise_14B_fp16.safetensors
│   │   └─── wan2.2_i2v_high_noise_14B_fp16.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors

确保第一个 Load Diffusion Model节点加载了 wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors 模型
确保第二个 Load Diffusion Model节点加载了 wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors 模型
确保Load CLIP节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 模型
确保Load VAE节点加载了 wan_2.1_vae.safetensors 模型
在 Load Image 节点上传作为起始帧的图像
如果你需要修改提示词（正向及负向）请在序号6 的 CLIP Text Encoder 节点中进行修改
可选）在EmptyHunyuanLatentVideo 你可以进行尺寸的设置调整，和视频总帧数 length 调整
点击 Run 按钮，或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成

FLF2V

在第一个 Load Image 节点上传作为起始帧的图像
在第二个 Load Image 节点上传作为起始帧的图像
在 WanFirstLastFrameToVideo 上修改尺寸设置
- 我们默认设置了一个比较小的尺寸，防止低显存用户运行占用过多资源
- 如果你有足够的显存，可以尝试 720P 左右尺寸
根据你的首尾帧撰写合适的提示词
点击 Run 按钮，或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成