介绍
阿里巴巴于2025年2月开源的Wan2.1是当前视频生成领域的标杆性模型,其开源协议为Apache 2.0,提供14B(140亿参数)和1.3B(13亿参数)两个版本,覆盖文生视频(T2V)、图生视频(I2V)等多项任务。 该模型不仅在性能上超越现有开源模型,更重要的是其轻量级版本仅需 8GB 显存即可运行,大大降低了使用门槛。
官方GitHub: github.com/Wan-Video/W…
In this repository, we present Wan2.1, a comprehensive and open suite of video foundation models that pushes the boundaries of video generation. Wan2.1 offers these key features:
- SOTA Performance: Wan2.1 consistently outperforms existing open-source models and state-of-the-art commercial solutions across multiple benchmarks.
- Supports Consumer-grade GPUs: The T2V-1.3B model requires only 8.19 GB VRAM, making it compatible with almost all consumer-grade GPUs. It can generate a 5-second 480P video on an RTX 4090 in about 4 minutes (without optimization techniques like quantization). Its performance is even comparable to some closed-source models.
- Multiple Tasks: Wan2.1 excels in Text-to-Video, Image-to-Video, Video Editing, Text-to-Image, and Video-to-Audio, advancing the field of video generation.
- Visual Text Generation: Wan2.1 is the first video model capable of generating both Chinese and English text, featuring robust text generation that enhances its practical applications.
- Powerful Video VAE: Wan-VAE delivers exceptional efficiency and performance, encoding and decoding 1080P videos of any length while preserving temporal information, making it an ideal foundation for video and image generation.
官方博客: wanxai.com/
在线体验: tongyi.aliyun.com/
- 文字or图片生成视频(Text‑to‑Video) — 你一句提示词,AI 就能帮你搞出一段短动画;
- VACE 多模态创作编辑 — 文字、图片、mask、视频等混合输入,搞定剪辑、背景替换、镜头转换;
- Fun Control 可控动画 — 用 Canny、Depth、OpenPose 等信号精准控制动画细节;
- InP x FLF2V 强大的首尾帧动画
- SkyReels 元素生成视频 x 无限流视频生成
- Phantom 多人参考生成视频 CausVid 以及 AccVid快速模型等等
Tutorial
comfyanonymous.github.io/ComfyUI_exa…
官方模型
官方HuggingFace: huggingface.co/Wan-AI
官方 ModelScope: modelscope.cn/organizatio…
ComfyUI_repackaged 模型
目前 ComfyUI 已原生支持 Wan2.1,使用官方原生支持版本请升级你的 ComfyUI 到最新版本,模型下载 Comfy-Org/Wan_2.1_ComfyUI_repackaged
其中 Diffusion models Comfy-org 提供了多个版本,如果本文中官方原生版本所用模型版本对硬件要求较高,你可以选择自己需要的版本来进行使用
- i2v 为 image to video 即 图生视频模型, t2v 为 text to video 即 文生视频模型
- 14B、1.3B 为对应的参数量,数值越大对硬件性能要求越高
- bf16、fp16、fp8 代表不同的精度,精度越高对硬件性能要求越高
- 其中bf16 可能需要Ampere 架构及以上的 GPU 支持
- fp16 受支持更广泛
- fp8 精度最低,对硬件性能要求最低,但效果相对也会较差
- 通常文件体积越大对设备的硬件要求也越高
从下面选择一个Diffusion models 模型文件进行下载,
- wan2.1_t2v_14B_bf16.safetensors
- wan2.1_t2v_14B_fp16.safetensors
- wan2.1_t2v_14B_fp8_e4m3fn.safetensors
- wan2.1_t2v_14B_fp8_scaled.safetensors
- wan2.1_t2v_1.3B_bf16.safetensors
- wan2.1_t2v_1.3B_fp16.safetensors
从Text encoders 选择一个版本进行下载,
VAE
T2V
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ └── wan2.1_t2v_14B_fp16.safetensors # 或者你选择的版本
│ ├── text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors # 或者你选择的版本
│ └── vae/
│ └── wan_2.1_vae.safetensors
- 确保
Load Diffusion Model节点加载了wan2.1_t2v_1.3B_fp16.safetensors模型 - 确保
Load CLIP节点加载了umt5_xxl_fp8_e4m3fn_scaled.safetensors模型 - 确保
Load VAE节点加载了wan_2.1_vae.safetensors模型 - 可以在
CLIP Text Encoder节点中输入你想要生成的视频描述内容 - 点击
Run按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)来执行视频生成
I2V
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ └── wan2.1_i2v_480p_14B_fp16.safetensors # 或者你选择的版本
│ ├── text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors # 或者你选择的版本
│ └── vae/
│ │ └── wan_2.1_vae.safetensors
│ └── clip_vision/
│ └── clip_vision_h.safetensors
- 确保
Load Diffusion Model节点加载了wan2.1_i2v_480p_14B_fp16.safetensors模型 - 确保
Load CLIP节点加载了umt5_xxl_fp8_e4m3fn_scaled.safetensors模型 - 确保
Load VAE节点加载了wan_2.1_vae.safetensors模型 - 确保
Load CLIP Vision节点加载了clip_vision_h.safetensors模型 - 在
Load Image节点中加载前面提供的输入图片 - 在
CLIP Text Encoder节点中输入你想要生成的视频描述内容,或者使用工作流中的示例 - 点击
Run按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)来执行视频生成
Fun-Control
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ └── Wan2.1-Fun-1.3B-Control.safetensors # 或者你选择的版本
│ ├── 📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors # 或者你选择的版本
│ └── 📂 vae/
│ │ └── wan_2.1_vae.safetensors
│ └── 📂 clip_vision/
│ └── clip_vision_h.safetensors
- 确保
Load Diffusion Model节点加载了Wan2.1-Fun-1.3B-Control.safetensors模型 - 确保
Load CLIP节点加载了umt5_xxl_fp8_e4m3fn_scaled.safetensors模型 - 确保
Load VAE节点加载了wan_2.1_vae.safetensors模型 - 确保
Load CLIP Vision节点加载了clip_vision_h.safetensors模型 - 在
Load Image节点中加载前面提供的输入图片作为起始帧 - 在
Load Image节点上传前面提供的视频,作为控制条件 - 可选)在
CLIP Text Encoder节点中修改视频提示词 - 点击
Run按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)来执行视频生成
FLF2V
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ └─── wan2.1_flf2v_720p_14B_fp16.safetensors # or FP8 version
│ ├── text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors # or your chosen version
│ ├── vae/
│ │ └── wan_2.1_vae.safetensors
│ └── clip_vision/
│ └── clip_vision_h.safetensors
- Ensure the
Load Diffusion Modelnode has loadedwan2.1_flf2v_720p_14B_fp16.safetensorsorwan2.1_flf2v_720p_14B_fp8_e4m3fn.safetensors - Ensure the
Load CLIPnode has loadedumt5_xxl_fp8_e4m3fn_scaled.safetensors - Ensure the
Load VAEnode has loadedwan_2.1_vae.safetensors - Ensure the
Load CLIP Visionnode has loadedclip_vision_h.safetensors - Upload the starting frame to the
Start_imagenode - Upload the ending frame to the
End_imagenode - (Optional) Modify the positive and negative prompts, both Chinese and English are supported
- (Important) In
WanFirstLastFrameToVideowe use 7201280 as default size.because it’s a 720P model, so using a small size will not yield good output. Please use size around 7201280 for good generation. - Click the
Runbutton, or use the shortcutCtrl(cmd) + Enterto execute video generation
Kijai 量化版本
目前已有社区作者制作了量化版本
T2V
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ └── Wan2_1-T2V-14B_fp8_e4m3fn.safetensors # 或者你选择的版本
│ ├── text_encoders/
│ │ └─── umt5-xxl-enc-bf16.safetensors # 或者你选择的版本
│ └─── vae/
│ └── Wan2_1_VAE_bf16.safetensors
- 确保
WanVideo Vae Loader节点加载了Wan2_1_VAE_bf16.safetensors模型 - 确保
WanVideo Model Loader节点加载了Wan2_1-T2V-14B_fp8_e4m3fn.safetensors模型 - 确保
Load WanVideo T5 TextEncoder节点加载了umt5-xxl-enc-bf16.safetensors模型 - 在
WanVideo TextEncode处输入你想要生成的视频画面提示词 - 点击
Run按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)来执行视频生成
可以修改 WanVideo Empty Embeds 中的尺寸来修改画面尺寸
I2V
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ └── Wan2_1-I2V-14B-720P_fp8_e4m3fn.safetensors # 或者你选择的版本
│ ├── text_encoders/
│ │ └─── umt5-xxl-enc-bf16.safetensors # 或者你选择的版本
│ ├── vae/
│ │ └── Wan2_1_VAE_fp32.safetensors # 或者你选择的版本
│ └── clip_vision/
│ └── clip_vision_h.safetensors
- 确保
WanVideo Model Loader节点加载了Wan2_1-I2V-14B-720P_fp8_e4m3fn.safetensors模型 - 确保
Load WanVideo T5 TextEncoder节点加载了umt5-xxl-enc-bf16.safetensors模型 - 确保
WanVideo Vae Loader节点加载了Wan2_1_VAE_fp32.safetensors模型 - 确保
Load CLIP Vision节点加载了clip_vision_h.safetensors模型 - 在
Load Image节点中加载我们前面提供的输入图片 - 保存默认或者修改
WanVideo TextEncode提示词来调整画面效果 - 点击
Run按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)来执行视频生成
Fun-Control
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ └── Wan2.1-Fun-1.3B-Control.safetensors # 或者你选择的版本
│ ├── 📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors # 或者你选择的版本
│ └── 📂 vae/
│ │ └── wan_2.1_vae.safetensors
│ └── 📂 clip_vision/
│ └── clip_vision_h.safetensors
- 确保
WanVideo Model Loader节点加载了Wan2.1-Fun-1.3B-Control.safetensors模型 - 确保
Load WanVideo T5 TextEncoder节点加载了umt5-xxl-enc-bf16.safetensors模型 - 确保
WanVideo Vae Loader节点加载了Wan2_1_VAE_bf16.safetensors模型 - 在
AIO AuxAux Preprocessor节点中选择OpenposePreprocessor节点 - 在
Load Video(Upload)节点中上传前面我们提供的输入视频 - 在
WanVideo TextEncode处输入你想要生成的视频画面提示词(可不修改,保持工作流默认) - 点击
Run按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)来执行视频生成
GGUF
- hf-mirror.com/city96/Wan2…
- hf-mirror.com/city96/Wan2…
- hf-mirror.com/city96/Wan2…
- hf-mirror.com/city96/Wan2…
- hf-mirror.com/city96/Wan2…
- hf-mirror.com/city96/Wan2…
T2V
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ └── wan2.1-t2v-14b-Q4_K_M.gguf # 或者你选择的版本
│ ├── text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors # 或者你选择的版本
│ └── vae/
│ └── wan_2.1_vae.safetensors
- 确保
Unet Loader(GGUF)节点加载了wan2.1-t2v-14b-Q4_K_M.gguf模型 - 确保
Load CLIP节点加载了umt5_xxl_fp8_e4m3fn_scaled.safetensors模型 - 确保
Load VAE节点加载了wan_2.1_vae.safetensors模型 - 可以在
CLIP Text Encoder节点中输入你想要生成的视频描述内容 - 点击
Run按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)来执行视频生成
I2V
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ └── wan2.1-i2v-14b-Q4_K_M.gguf # 或者你选择的版本
│ ├── text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors # 或者你选择的版本
│ └── vae/
│ └── wan_2.1_vae.safetensors
- 确保
Unet Loader(GGUF)节点加载了wan2.1-i2v-14b-Q4_K_M.gguf模型 - 确保
Load CLIP节点加载了umt5_xxl_fp8_e4m3fn_scaled.safetensors模型 - 确保
Load VAE节点加载了wan_2.1_vae.safetensors模型 - 确保
Load CLIP Vision节点加载了clip_vision_h.safetensors模型 - 在
Load Image节点中加载前面提供的输入图片 - 在
CLIP Text Encoder节点中输入你想要生成的视频描述内容,或者使用工作流中的示例 - 点击
Run按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)来执行视频生成
Fun-Control
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ └── wan2.1-fun-14b-control-Q4_K_M.gguf # 或者你选择的版本
│ ├── 📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors # 或者你选择的版本
│ └── 📂 vae/
│ │ └── wan_2.1_vae.safetensors
│ └── 📂 clip_vision/
│ └── clip_vision_h.safetensors
- 确保
Unet Loader(GGUF)节点加载了wan2.1-fun-14b-control-Q4_K_M.gguf模型 - 确保
Load CLIP节点加载了umt5_xxl_fp8_e4m3fn_scaled.safetensors模型 - 确保
Load VAE节点加载了wan_2.1_vae.safetensors模型 - 确保
Load CLIP Vision节点加载了clip_vision_h.safetensors模型 - 在
Load Image节点中加载前面提供的输入图片作为起始帧 - 在
Load Image节点上传前面提供的视频,作为控制条件 - 可选)在
CLIP Text Encoder节点中修改视频提示词 - 点击
Run按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)来执行视频生成
FLF2V
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ └── wan2.1-flf2v-14b-Q4_K_M.gguf # 或者你选择的版本
│ ├── text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors # 或者你选择的版本
│ └── vae/
│ └── wan_2.1_vae.safetensors
- 确保
Unet Loader(GGUF)节点加载了wan2.1-flf2v-14b-Q4_K_M.gguf模型 - 确保
Load CLIP节点加载了umt5_xxl_fp8_e4m3fn_scaled.safetensors模型 - 确保
Load VAE节点加载了wan_2.1_vae.safetensors模型 - 确保
Load CLIP Vision节点加载了clip_vision_h.safetensors模型 - Upload the starting frame to the
Start_imagenode - Upload the ending frame to the
End_imagenode - (Optional) Modify the positive and negative prompts, both Chinese and English are supported
- (Important) In
WanFirstLastFrameToVideowe use 7201280 as default size.because it’s a 720P model, so using a small size will not yield good output. Please use size around 7201280 for good generation. - 点击
Run按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)来执行视频生成
VACE
VACE 14B is an open-source unified video editing model launched by the Alibaba Tongyi Wanxiang team. Through integrating multi-task capabilities, supporting high-resolution processing and flexible multi-modal input mechanisms, this model significantly improves the efficiency and quality of video creation.
The model is open-sourced under the Apache-2.0 license and can be used for personal commercial purposes.
Here is a comprehensive analysis of its core features and technical highlights:
- Multi-modal input: Supports multiple input forms including text, images, video, masks, and control signals
- Unified architecture: Single model supports multiple tasks with freely combinable functions
- Motion transfer: Generates coherent actions based on reference videos
- Local replacement: Replaces specific areas in videos through masks
- Video extension: Completes actions or extends backgrounds
- Background replacement: Preserves subjects while changing environmental backgrounds
Currently VACE has released two versions - 1.3B and 14B. Compared to the 1.3B version, the 14B version supports 720P resolution output with better image details and stability.
模型
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ └─── wan2.1_vace_14B_fp16.safetensors
│ ├── 📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors # or umt5_xxl_fp16.safetensors
│ └── 📂 vae/
│ └── wan_2.1_vae.safetensors
FusioniX
现在国外一个作者做了一个非常强劲的Wan融合模型 FusionX,它融合了Wan生态下的很多模型,直接拉高了Wan模型的一个层次,速度快,效果好。
这个FusionX模型里面有什么,我们来看看:
- CausVid – 因果运动建模,实现更好的场景流和戏剧性的速度启动
- ️ AccVideo – 提高时间对齐和真实感以及快速启动
- MoviiGen1.1 – 带来电影般的流畅度和照明
- MPS Reward LoRA – 针对运动动态和细节进行调优
- ✨ Custom LoRAs (by me) – 专注于纹理、清晰度和精细细节。(这两者都被设置为非常低的强度,影响非常小)
所以,它的画质会比普通的Wan模型好很多,,还有之前说的 VACE、Phantom 模型都支持了,基本Wan生态的模型它都有一个全套的适配,所以前面一大推的模型删了吧,以后就用FusionX这个系列就行,你们说算不算王炸。
一款最新的wan视频模型:FusionX,这是一款来自社区的基于WAN 2.1 14B 模型的基础上训练的文生视频模型,是一款拥有超越之前万相开源模型的质量,几乎能给个媲美闭源模型。并且该模型融合了多个之前的社区优秀模型。在视频质量方面拥有惊艳的输出质量,特别是在:运动质量、场景一致性、视觉细节 3个方面。另外,该模型融合了之前很多优秀Apache 2.0/MIT开源模型,具体如下所示:
• CausVid:用于改进流动性和动态效果的因果运动建模,参见:CausVid:强烈推荐,超3倍极限视频加速!WanVACE仅需3-9步极视频生成和Pose动作迁移加速
• AccVideo:更好的时间对齐和速度提升,参见:AccVideo: 超强wan视频加速!无需追色,适用于原生Wan与VACE动作引导等加速方案
• MoviiGen1.1:电影般的流畅度和光照效果,参见:MoviiGen1.1:专业电影级视觉Wan视频!高质量运镜&真实细节&美学的AI视频模型
• [MPS Reward LoRA]:针对运动和细节进行调整
• 自定义 LoRA:用于纹理、清晰度和小细节增强,参见:VACE-14B:效果炸裂,开源AI视频里程碑!更稳定和高质量wan2.1视频一体化编辑,首尾帧&动作迁移&视频扩展
该模型能够在最少6步即可生成高质量视频,因为融合上述CausVid和AccVideo加速模型,权衡质量推荐采用8-10步生成。另外社区还包括融合VACE模型版本,能够很好的支持文生视频、图生视频、首尾帧图生视频、姿势和深度控制动作迁移等VACE全套视频生成功能。
模型
• QuantStack/Wan2.1_T2V_14B_FusionX_VACE:下载模型并放置 /ComfyUI/models/unet 或者 /ComfyUI/models/diffusion_models目录
ComfyUI
当前kijai大佬的ComfyUI-WanVideoWrapper插件体验。
• ComfyUI-WanVideoWrapper:github.com/kijai/Comfy…
• FusionX-VACE融合了加速模型,能够在最少6步完成视频生成,推荐8-10步更高质,并且兼容之前的wan lora模型。另外与 SageAttn 一起使用,渲染速度还可以提升高达 50% 。
• 文本到视频配置参数:在文生视频应用中,需将 CGF 参数固定设置为 1 。Shift 参数 依据视频分辨率和预期效果调整:对于 1024x576 分辨率,初始值设为 1;对于 1080x720 分辨率,初始值设为 2 。若追求现实效果,建议采用较低的 Shift 值;若倾向于风格化效果,则可测试 3 至 9 的 Shift 值。调度器推荐使用 uni_pc ,在部分细节要求较高的场景下,flowmatch_causvid 为替代选项。
• 图像到视频配置参数:图生视频的 CGF 参数同样设置为 1 。在大多数情况下,Shift 参数的最佳选择是 2 。调度器推荐使用 dmp++_sde/beta 。为了提升视频的运动效果并减少慢动作效果,建议将 帧数设置为 121,FPS 设置为 24 。
Wan2.2
www.stablediffusiontutorials.com/2025/07/wan…
alidocs.dingtalk.com/i/nodes/jb9…
通义万相 2.2(Wan 2.2)是阿里云推出的新一代多模态生成模型。该模型采用创新的 MoE(Mixture of Experts)架构,由高噪专家模型和低噪专家模型组成,能够根据去噪时间步进行专家模型划分,从而生成更高质量的视频内容。Wan 2.2 具备三大核心特性:影视级美学控制,深度融合专业电影工业的美学标准,支持光影、色彩、构图等多维度视觉控制;大规模复杂运动,轻松还原各类复杂运动并强化运动的流畅度和可控性;精准语义遵循,在复杂场景和多对象生成方面表现卓越,更好还原用户的创意意图。 模型支持文生视频、图生视频等多种生成模式,适用于内容创作、艺术创作、教育培训等多种应用场景。Wan2.2 提示词指南
模型亮点
- 影视级美学控制:专业镜头语言,支持光影、色彩、构图等多维度视觉控制
- 大规模复杂运动:流畅还原各类复杂运动,强化运动可控性和自然度
- 精准语义遵循:复杂场景理解,多对象生成,更好还原创意意图
- 高效压缩技术:5B版本高压缩比VAE,显存优化,支持混合训练
Wan2.2 开源模型版本
Wan2.2 系列模型基于 Apache2.0 开源协议,支持商业使用。Apache2.0 许可证允许您自由使用、修改和分发这些模型,包括商业用途,只需保留原始版权声明和许可证文本。
| 模型类型 | 模型名称 | 参数量 | 主要功能 | 模型仓库 |
|---|---|---|---|---|
| 混合模型 | Wan2.2-TI2V-5B | 5B | 支持文本生成视频和图像生成视频的混合版本,单一模型满足两大核心任务需求 | 🤗 Wan2.2-TI2V-5B |
| 图生视频 | Wan2.2-I2V-A14B | 14B | 将静态图像转换为动态视频,保持内容一致性和流畅的动态过程 | 🤗 Wan2.2-I2V-A14B |
| 文生视频 | Wan2.2-T2V-A14B | 14B | 从文本描述生成高质量视频,具备影视级美学控制和精准语义遵循 | 🤗 Wan2.2-T2V-A14B |
GGUF 版本
自定义节点 City96/ComfyUI-GGUF
WanVideoWrapper
Wan2.2 models
Wan2.1 models
Lightx2v 4steps LoRA
TI2V-5B
ComfyUI/
├───📂 models/
│ ├───📂 diffusion_models/
│ │ └───wan2.2_ti2v_5B_fp16.safetensors
│ ├───📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ └───📂 vae/
│ └── wan2.2_vae.safetensors
- 确保
Load Diffusion Model节点加载了wan2.2_ti2v_5B_fp16.safetensors模型 - 确保
Load CLIP节点加载了umt5_xxl_fp8_e4m3fn_scaled.safetensors模型 - 确保
Load VAE节点加载了wan2.2_vae.safetensors模型 - (可选)如果你需要进行图生视频,可以使用快捷键 Ctrl+B 来启用
Load image节点来上传图片 - (可选)在
Wan22ImageToVideoLatent你可以进行尺寸的设置调整,和视频总帧数length调整 - (可选)如果你需要修改提示词(正向及负向)请在序号
5的CLIP Text Encoder节点中进行修改 - 点击
Run按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)来执行视频生成
I2V-A14B
ComfyUI/
├───📂 models/
│ ├───📂 diffusion_models/
│ │ ├─── wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
│ │ └─── wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
│ ├───📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ └───📂 vae/
│ └── wan_2.1_vae.safetensors
- 确保第一个
Load Diffusion Model节点加载了wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors模型 - 确保第二个
Load Diffusion Model节点加载了wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors模型 - 确保
Load CLIP节点加载了umt5_xxl_fp8_e4m3fn_scaled.safetensors模型 - 确保
Load VAE节点加载了wan_2.1_vae.safetensors模型 - (可选)在
EmptyHunyuanLatentVideo你可以进行尺寸的设置调整,和视频总帧数length调整 - 如果你需要修改提示词(正向及负向)请在序号
6的CLIP Text Encoder节点中进行修改 - 点击
Run按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)来执行视频生成
T2V-A14B
ComfyUI/
├───📂 models/
│ ├───📂 diffusion_models/
│ │ ├─── wan2.2_i2v_low_noise_14B_fp16.safetensors
│ │ └─── wan2.2_i2v_high_noise_14B_fp16.safetensors
│ ├───📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ └───📂 vae/
│ └── wan_2.1_vae.safetensors
- 确保第一个
Load Diffusion Model节点加载了wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors模型 - 确保第二个
Load Diffusion Model节点加载了wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors模型 - 确保
Load CLIP节点加载了umt5_xxl_fp8_e4m3fn_scaled.safetensors模型 - 确保
Load VAE节点加载了wan_2.1_vae.safetensors模型 - 在
Load Image节点上传作为起始帧的图像 - 如果你需要修改提示词(正向及负向)请在序号
6的CLIP Text Encoder节点中进行修改 - 可选)在
EmptyHunyuanLatentVideo你可以进行尺寸的设置调整,和视频总帧数length调整 - 点击
Run按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)来执行视频生成
FLF2V
-
在第一个
Load Image节点上传作为起始帧的图像 -
在第二个
Load Image节点上传作为起始帧的图像 -
在
WanFirstLastFrameToVideo上修改尺寸设置- 我们默认设置了一个比较小的尺寸,防止低显存用户运行占用过多资源
- 如果你有足够的显存,可以尝试 720P 左右尺寸
-
根据你的首尾帧撰写合适的提示词
-
点击
Run按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)来执行视频生成