Colossal-AI团队全面开源了一个名为Open-Sora 1.0的视频生成模型,该模型借鉴了Sora架构,并采用了当前热门的Diffusion Transformer (DiT) 架构,将文本到图像合成技术扩展到了视频领域。Open-Sora 1.0模型的训练流程包括三个阶段:
-
大规模图像预训练:利用大规模互联网图像数据和先进的文生图技术,通过Stable Diffusion模型的预训练权重降低视频预训练的成本。
-
大规模视频预训练:在第一阶段的基础上增加了时间注意力层以处理时序信息,使用多样化的大量视频数据进行训练,提高模型对视频内容的时间关联性和泛化能力。此阶段运用了PixArt-α模型的部分开源权重以及T5作为文本编码器,并采用较低分辨率(如256x256)进行初步训练以加快收敛速度。
-
高质量视频数据微调:针对更高品质、更长时长和高分辨率的视频进行微调,显著提升视频生成效果,实现从低质量短时长向高质量长时长视频的高效过渡。
为了简化复现过程和数据预处理步骤,Colossal-AI团队提供了易于使用的脚本工具,用户可以便捷地下载公开视频数据集、分割视频片段,并利用开源大语言模型LLaVA生成精细提示词,从而快速构建用于训练的视频/文本对。
此外,Open-Sora模型实际应用案例展示了其能够生成多种逼真场景的视频,例如航拍海岸、瀑布、水下珊瑚礁与海龟游弋等动态画面,甚至能创作延时摄影风格的星空视频。目前Open-Sora项目已免费开放在GitHub上,用户可以通过访问主页链接获取模型权重并进行体验。github.com/hpcaitech/O…
作者团队强调,虽然当前版本仅使用了400K级别的训练数据,生成质量和文本贴合度仍有待提高,但团队将持续优化模型,计划增加更多视频训练数据以生成更高质量和长时长的视频内容,并支持多分辨率输出。同时,他们还采取了一系列高效的训练策略和加速系统,比如Colossal-AI加速系统,在训练过程中实现了显著的加速效果,使得训练成本得到控制,且能在单台服务器上流畅执行高清视频的训练任务。