参数扫描实验:探索Wan2.1的输入参数
最近,我们一直在研究某机构的WAN2.1文本到视频模型。与大多数图像和视频生成模型一样,Wan模型有许多输入参数,每一个都可能对生成输出的质量产生深远影响。
调整这些神秘的输入会发生什么?让我们一探究竟。
实验设计
我们想观察“引导尺度”和“偏移”这两个输入参数如何影响输出。在我们的实验中,我们使用了WAN2.1 14b文本到视频模型,分辨率为720p。
为此,我们进行了所谓的“参数扫描”,系统地测试不同输入值的组合,以了解它们如何影响输出。我们为引导尺度和偏移值的每一种组合生成了视频,同时保持所有其他参数不变。
我们在所有视频中保持以下输入一致:
- 提示词:“夜晚,一位微笑的女性在伦敦行走”
- 种子:42
- 帧数:81
- 采样步数:30
然后,我们只改变以下两个输入,测试一系列值:
- sample_guide_scale:从 0 到 10
- sample_shift:从 1 到 9
如果你想自己运行类似的实验,我们已将用于生成这些参数扫描的代码分享在GitHub上。
什么是引导尺度?
你可以将引导尺度视为“创造力与服从度”的调节旋钮。
- 在 guide_scale=0 时,模型会忽略你的提示词。
- 随着你提高这个值,模型会努力匹配你的提示词。
- 较低的值:更多的创作自由。
- 较高的值:更字面化的解释。
以下是将其从0调到10时的变化:
什么是偏移?
偏移控制模型在去噪过程中如何移动,影响视频中的运动和时间流。它基本上控制着生成视频中的“时间流动”。
- 较低的值:更平滑、更可预测的运动。
- 较高的值:更具动感但有时是混乱的运动。
以下是将偏移从1改变到9时的变化:
我们在这些视频中观察到的现象
关于引导尺度:
- guide_scale=0:非常怪异但有趣的输出。富有创意,但与提示词几乎无关。
- guide_scale=1-2:奇怪的伪影,尤其是在女性嘴部周围。
- guide_scale=3-7:👈 最佳区间。看起来自然,问题最少。
- guide_scale=8+:令人畏惧的“AI感”开始显现——那种过度处理、闪亮的皮肤,明显是“由AI制造”的。
建议:进行怪异创意时使用0,追求逼真结果时使用3-7,避免8+,除非你想要那种AI闪光感。
关于偏移值(均在 guide_scale=5 条件下):
- shift=1:产生酷炫的“滑动变焦效果”,背景扭曲,但人物看起来很真实。
- shift=3-6:展示了不同女性(不同肤色,均为深色头发)位于画面左侧,并带有拉远的透视效果。
- shift=7-9:持续显示一位金发女性位于画面右侧,这些值的结果出奇地相似。
总体而言,较高的偏移值往往看起来更好,但其差异比引导尺度的变化更为微妙。
为何这很重要
正确设置这些参数,决定着你的视频看起来是业余水平还是近乎专业水平。大多数人只是使用默认值,但了解如何调整这些参数能让你对输出有更多的控制权。现在,你不必再猜测了。
有你想了解的其他参数吗?