把 Runway、Luma 们一锅端了!这款视频模型上 “杀手级” 功能:一致性魔咒终于打破

245 阅读4分钟

三张图攒一个毫无违和感的视频!

视频模型领域又沸腾了!

把 Runway、LumaAI 等一众视频模型都一锅端了。海外用户评价,一众视频模型都实现不了的能力,它竟然给攻破了,甚至在语义理解甚至比图像模型王者 Midjorney 还强。

这背后就是国产视频模型 Vidu——全球最早对标 Sora 发布的视频模型。昨天新上的 “杀手级” 功能:多主****体一致性。(传送门:www.vidu.studio)

这个功能上周六 Vidu 就在 X 上偷偷预热了,昨天正式上线。简单讲,这个功能支持上传 1~3 张参照,来实现对多主体的控制。

以官方发布的 demo 为例,丢入 “黑人男子、机甲、城市街景” 三张图,Vidu 能提取主体、服装、场景,将三者无缝融合, 输出一段 “男子穿着机甲走在城市街道” 的视频内容。

视频详情

必须要提的一点是,以上这些能力的实现并不来自业界主流的 LoRA(Low-Rank Adaptation)微调方案。

简单理解,过往的视频模型如果想实现上述换装、人脸融合等场景能力,均需要针对每一个场景设计进行微调。

LoRA 效果虽不错,但通常需要 20~100 段视频,数据构造繁琐,且需要数小时甚至更久的训练时间成本为单次视频生成的成百上千倍;另外 LoRA 微调模型容易产生过拟合,导致对于动态的表情或肢体动作的变化,很难有效控制。

但 Vidu 选择在自身通用架构上持续迭代升级,通过提升基础模型带来更泛化的能力,无需专门的数据采集、数据标注、微调训练环节

仅靠三张图就实现高可控的稳定输出,直接省去 LoRA“炼丹”。好家伙,LoRA 终结器嘛这不是!

视频模型拥有了 “上下文记忆”

Vidu 背后的研发团队生数科技也放出了技术架构的介绍,所谓统一化架构

  • 统一问题形式:将所有问题统一为(视觉输入,视觉输出);

  • 统一架构:均用单个网络统一建模变长的输入和输出;

  • 压缩即智能:从视频数据的压缩中获取智能。

图注:LLM 和 Vidu 技术架构方案对比

细品,这不就是和 LLM 一致的 “设计哲学”:将所有问题统一为简单输入输出,从压缩中获取智能,同样单个网络统一建模变长的输入和输出。

一旦接受了这个设定,再细品看,想必我们想到了同样的一个类似事件:ChatGPT 的智能涌现。

相较于 GPT-2、GPT-3,初代 ChatGPT 背后 GPT-3.5 之所以能够一炮轰出个 AI 新时代,正是因为 OpenAI 在其基础模型上大花功夫,带来通用模型能力的提升。

从开始的预训练 + 微调的路径,伴随不断的 Scaling Up,最终基于一个通用基础模型实现泛化能力。

Vidu 的提出让我们看到了,视频模型的训练范式也从 “预训练 + 微调” 的路径升级到了通用化的统一架构,并在任务层面实现泛化。

另外还有一点,则是上下文理解能力方面,GPT-3.5 能够更好地处理复杂的指令和问题,理解更长的上下文信息,通过关联前后的文本、识别语句之间的关系,生成连贯且符合情境的回答或内容。

有意思的是,在 Vidu 这儿,我们也看到了 “上下文记忆” 能力。

此次升级,从单图输入到输入多张参考图像,Vidu 能够理解多个输入图像的准确含义和它们之间的关联性,以及能够根据这些信息生成一致、连贯且有逻辑的输出。

这与大语言模型的 “上下文学习”(In-Context Learning)能力具有显著相似性,通过上下文学习基于少量的示例或提示快速适应新任务。

至此,Vidu 不再仅仅是从文本到视频的渲染工具,不仅仅具备了理解和想象的能力,还能够在生成过程中对上下文信息进行记忆管理。

曾经大语言模型的独有优势,现在在视觉模型中也得以体现

视觉模型也出现了和语言模型一样的 “大跨越”,AGI 版图里的一块重要拼图,正在加速进化中。

传送门:www.vidu.studio

—  —