Stable Video Diffusion真的很好用吗,开箱体验分享

647 阅读2分钟

Stability AI 于11月21日推出了第一款基于图像模型 Stable Diffusion 的生成式视频基础模型Stable Video Diffusion。目前官方开源了 Stable Video Diffusion 的代码,可以在Hugging Face 上找到模型本地运行所需要的 weights,同时也提供了预览体验地址:stability-ai/stable-video-diffusion – Run with an API on Replicate

这里感谢大佬开发的webui工具,上链接 GitHub - xx025/stable-video-diffusion-webui: stable-video-diffusion-webui, img to videos (若有侵权请及时联系作者)。

按照官方提供的教程一步一步操作即可,这里注意一下。第二步操作,需要安装anaconda。若要跳过此步骤,python环境为3.10即可。另外在执行 python install.py的操作需要科学上网。

如果是windows的用户:

wget huggingface.co/vdo/stable-… -P checkpoints/ -O svd_xt.safetensors

这个步骤忽略,改为直接去huggingface上下载svd_xt.safetensors,  链接为 :huggingface.co/vdo/stable-…

最后将下载完成的大模型放再checkpoint目录下面即可。最后运行项目:python run.py。

等待1分钟左右,打开浏览器访问127.0.0.1:7860,界面如下图:

这里我说一下使用体验:

1. 显存配置至少要16GB,低于这个配置直接劝退。本人用的4060Ti 16GB的显卡,运行跑出4秒的视频花了10分钟左右。

2. 目前这套大模型还不够成熟,仅仅是通过推理生成视频,不支持Gen2笔刷视频效果, 

3. 视频输出长度只有4s,  且仅支持1024*576的视频输出。所以在上传原图最好是这种比例的横图,否者会对图片进行裁剪。

4. 配置参数也比较局限,对视频生成的效果类似抽卡,挑素材和场景。

总体上来说体验是不如Gen2的,不过这个毕竟是开源且不够成熟,后期还会有很大的提升空间。

最后附上效果视频吧: