Stability AI 于11月21日推出了第一款基于图像模型 Stable Diffusion 的生成式视频基础模型Stable Video Diffusion。目前官方开源了 Stable Video Diffusion 的代码,可以在Hugging Face 上找到模型本地运行所需要的 weights,同时也提供了预览体验地址:stability-ai/stable-video-diffusion – Run with an API on Replicate。
这里感谢大佬开发的webui工具,上链接 GitHub - xx025/stable-video-diffusion-webui: stable-video-diffusion-webui, img to videos (若有侵权请及时联系作者)。
按照官方提供的教程一步一步操作即可,这里注意一下。第二步操作,需要安装anaconda。若要跳过此步骤,python环境为3.10即可。另外在执行 python install.py的操作需要科学上网。
如果是windows的用户:
wget huggingface.co/vdo/stable-… -P checkpoints/ -O svd_xt.safetensors
这个步骤忽略,改为直接去huggingface上下载svd_xt.safetensors, 链接为 :huggingface.co/vdo/stable-…
最后将下载完成的大模型放再checkpoint目录下面即可。最后运行项目:python run.py。
等待1分钟左右,打开浏览器访问127.0.0.1:7860,界面如下图:
这里我说一下使用体验:
1. 显存配置至少要16GB,低于这个配置直接劝退。本人用的4060Ti 16GB的显卡,运行跑出4秒的视频花了10分钟左右。
2. 目前这套大模型还不够成熟,仅仅是通过推理生成视频,不支持Gen2笔刷视频效果,
3. 视频输出长度只有4s, 且仅支持1024*576的视频输出。所以在上传原图最好是这种比例的横图,否者会对图片进行裁剪。
4. 配置参数也比较局限,对视频生成的效果类似抽卡,挑素材和场景。
总体上来说体验是不如Gen2的,不过这个毕竟是开源且不够成熟,后期还会有很大的提升空间。
最后附上效果视频吧: