Latte ：一项类似 Sora 的技术，踩坑总结本文为大家介绍一个类似 Sora 的项目，Latte的踩坑经历。核心点

项目地址：

已验证过了，可行，但是有一些坑，谈几个踩坑的经历。

1.如果只是用sample的方法去生成视频，也就是官方发布的 Unconditional generation，需要6G以上的显存就可以。

2.要是需要运行通过提示词生成视频，也就是t2v，这里面有一个基线模型PixArt-XL-2-512x512，占的显存太大，需要20G以上显存，建议使用A100的卡。

3.官方的代码，有一部分模型权重没有放出，需要额外去下载，参考github的issue。

4.目前生成的视频只有2s，官方未放出来生成更长视频的使用方法，需要探索或者等更新。

5.核心部分还是DiT模型，有能力的可以自行修改

6.diffusers版本要对，不然代码运行不了

7.torch要2.1以上，python3.10的环境，cuda 11.7以上，满足不了环境要求的，就不用尝试了，装不上。

欢迎各位，点赞评论，一起交流学习，可以加1060687688。