Latte :一项类似 Sora 的技术,踩坑总结

231 阅读1分钟

项目地址:

github.com/Vchitect/La…

已验证过了,可行,但是有一些坑,谈几个踩坑的经历。

1.如果只是用sample的方法去生成视频,也就是官方发布的 Unconditional generation,需要6G以上的显存就可以。

2.要是需要运行通过提示词生成视频,也就是t2v,这里面有一个基线模型PixArt-XL-2-512x512,占的显存太大,需要20G以上显存,建议使用A100的卡。

3.官方的代码,有一部分模型权重没有放出,需要额外去下载,参考github的issue。

4.目前生成的视频只有2s,官方未放出来生成更长视频的使用方法,需要探索或者等更新。

5.核心部分还是DiT模型,有能力的可以自行修改

6.diffusers版本要对,不然代码运行不了

7.torch要2.1以上,python3.10的环境,cuda 11.7以上,满足不了环境要求的,就不用尝试了,装不上。


欢迎各位,点赞评论,一起交流学习,可以加1060687688。