阿里巴巴 vs 字节跳动,先后发布"人体静图到动画AI",谁更胜一筹???

282 阅读3分钟

阿里巴巴集团智能计算研究院最近发布了一项令人振奋的技术突破:一种用于角色动画的一致且可控的图像到视频合成算法。该算法旨在通过驾驶信号从静止图像生成逼真的角色视频。目前,扩散模型在视觉生成研究中已成为主流,因其出色的生成能力而备受关注。然而,在图像到视频领域,特别是在角色动画方面,仍存在一些挑战,其中保持时间上与角色详细信息的一致性是一个艰巨的问题。

在这篇论文中,研究人员利用扩散模型的强大能力,提出了一个专门针对角色动画的全新框架。为了保持参考图像中复杂外观特征的一致性,他们设计了一个名为ReferenceNet的模块,通过空间注意力机制来合并细节特征。为了确保动画的可控性和连续性,他们引入了一个高效的姿势引导器来指导角色的动作,并采用了有效的时间建模方法来确保视频帧之间的平滑过渡。

通过扩展训练数据,这种方法可以对任意角色进行动画处理,并在角色动画方面取得了比其他图像到视频方法更好的结果。此外,研究人员还在时尚视频和人类舞蹈合成的基准测试上评估了他们的方法,并取得了最先进的结果。

image.png

阿里巴巴 Animate Anyone (视频1) humanaigc.github.io/animate-any…

另外,新加坡国立大学展示实验室和字节跳动公司也在基于扩散模型的时序一致性人体图像动画方面进行了研究。他们的工作集中在人体图像动画任务上,旨在根据给定的运动序列生成具有特定参考身份的视频。现有的动画方法通常使用帧变形技术将参考图像动画化为目标运动。尽管这些方法取得了一定的成果,但由于缺乏时间建模和参考身份的保留,它们在保持整个动画中的时间一致性方面面临挑战。

为了解决这个问题,研究人员引入了一种名为MagicAnimate的基于扩散的框架,旨在增强时间一致性、忠实地保留参考图像并提高动画的真实性。他们首先开发了一个视频扩散模型来编码时间信息。其次,为了保持帧间的外观一致性,他们引入了一种新颖的外观编码器,以保留参考图像的复杂细节。通过这两项创新,他们进一步采用了简单的视频融合技术,以实现长视频动画的平滑过渡。

实证结果表明,在两个基准测试中,他们的方法优于基线方法。值得注意的是,在具有挑战性的TikTok舞蹈数据集上,他们的方法在视频的真实性方面比最强的基线方法提高了超过38%。这些研究为人体图像动画领域的进一步发展提供了有力的支持。

z.png

字节跳动 Magic Animate (视频2) showlab.github.io/magicanimat…