支持无限长度视频生成的多模态模型;多角色对话合成的 TTS 模型

35 阅读1分钟

SkyReels-V2:支持无限长度视频生成的多模态模型

SkyReels V2[1] 号称能够无限长度视频生成的开源模型,支持多模态生成能力,包括文生视频和图生视频。

在画面表现方面,接近闭源模型 Kling-1.6 和 Runway Gen-4。

SkyReels-V2 完全开源可商用,不过硬件要求比之前介绍的 FramePack 要高。

Nari Dia 1.6B:多角色对话合成的 TTS 模型

Dia 1.6B[2] 是由 Nari Labs 开发的开源文本转语音(TTS)模型。

它能够单次生成多角色对话,并支持非语言交流(如笑声、咳嗽声等)的合成。不过目前仅支持英文