Wan2.1开源视频生成模型API调用指南本文介绍了当前最先进的开源AI视频生成模型Wan2.1的技术特性与API调用方

Wan2.1：通过API生成视频

如果你最近关注AI视频领域，可能已经注意到它正在爆炸式发展。新的模型每周都在发布，带来了更好的输出效果、更高的分辨率和更快的生成速度。

Wan2.1是最新、能力最强的开源视频模型。它于上周发布，并已在排行榜上名列前茅。

Wan2.1有许多亮点：

它在某平台运行速度很快。生成一段5秒的视频，480p分辨率需要39秒，720p分辨率需要150秒。
它是开源的，包括模型权重和代码。社区已经在构建工具来增强它。
它能生成具有真实世界准确度的惊艳视频。
它体积足够小，可以在消费级GPU上运行。

本文将介绍新模型以及如何通过API运行它们。

模型版本

该模型在某平台上提供了多个不同版本：

Wan 2.1 文本生成视频，480p – wavespeedai/wan-2.1-t2v-480p (140亿参数)
Wan 2.1 图像生成视频，480p – wavespeedai/wan-2.1-i2v-480p (140亿参数)
Wan 2.1 文本生成视频，720p – wavespeedai/wan-2.1-t2v-720p (140亿参数)
Wan 2.1 图像生成视频，720p – wavespeedai/wan-2.1-i2v-720p (140亿参数)
Wan 2.1 文本生成视频，480p – wan-video/wan-2.1-1.3b (13亿参数)

480p模型适合实验，因为运行速度更快。如果需要更高分辨率，请使用720p模型。 13亿参数的模型更小，专为在消费级GPU上运行而设计。

真实世界准确度

140亿参数的模型擅长真实世界物理模拟，你可以让它完成大多数其他模型难以处理的事情：

手部细节：模型能很好地处理手部细节，展现独立的手指、皮肤纹理以及戒指等细节。
绘图动画：能将静态绘图转化为短视频片段。
物理现象：当提示创建一只长颈鹿倒挂在树上的视频时，模型描绘了树枝因重量而弯曲的景象。
头发运动：在有人物出现的视频中，头发渲染准确，展现人物转头时发丝的运动。
物体交互：能够准确地渲染同一空间中多个物体的交互。
人群场景：渲染大场面的人群场景时，每个物体都保持独立，营造出连贯的画面。

通过API运行Wan2.1

某平台上的每个模型都配有可扩展的云API，Wan2.1也不例外。

以下是使用某平台JavaScript客户端运行Wan2.1文本生成视频模型的代码片段：

import Replicate from "replicate";

const replicate = new Replicate()
const model = "wavespeedai/wan-2.1-i2v-480p"
const input = {
  image: "https://replicate.delivery/pbxt/MZZyui7brAbh1d2AsyPtgPIByUwzSv6Uou8objC7zXEjLySc/1a8nt7yw5drm80cn05r89mjce0.png",
  prompt: "A woman is talking",
}

const output = await replicate.run(model, { input })
console.log(output)

图像生成视频模型的代码几乎相同。只需在调用模型时省略图像输入即可：

import Replicate from "replicate"

const replicate = new Replicate()
const model = "wavespeedai/wan-2.1-t2v-480p";
const input = {
  prompt: "A woman is talking"
}
const output = await replicate.run(model, { input })

console.log(output.url())

尝试调整设置

Wan2.1模型也提供了许多不同的设置供尝试。可以尝试调整guide_scale、shift和steps等参数。发现较低的guide_scale和shift值（大约为4和2）可以生成非常逼真的视频。

社区的共同努力

没有众多开源贡献者的工作，这个模型就不会存在。正在利用某机构的优化技术，为用户带来世界上最快的生成速度。特别感谢某机构开源了这个模型，感谢@chengzeyi和@wavespeed_ai的共同努力，带来了如此快的生成速度。⚡️FINISHED