动态排版:通过视频传播使文本栩栩如生

48 阅读3分钟

抽象

文本动画作为一种表达媒介,通过为文字注入动作来唤起情感、强调意义并构建引人入胜的叙事,将静态交流转化为动态体验。制作具有语义感知能力的动画带来了重大挑战,需要平面设计和动画方面的专业知识。我们提出了一种称为“动态排版”的自动文本动画方案,它结合了两项具有挑战性的任务。它使字母变形以传达语义含义,并根据用户提示为它们注入充满活力的动作。我们的技术利用矢量图形表示和基于端到端优化的框架。该框架采用神经位移场将字母转换为基本形状,并应用每帧运动,鼓励与预期的文本概念保持一致。在整个动画过程中,采用形状保留技术和感知损失正则化来保持可读性和结构完整性。我们展示了我们的方法在各种文本到视频模型中的通用性,并强调了我们的端到端方法优于基线方法,基线方法可能包含单独的任务。通过定量和定性评估,我们证明了我们的框架在生成连贯的文本动画方面的有效性,这些动画忠实地解释用户提示,同时保持可读性。

画廊

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

为什么选择SVG?

SVG 与分辨率无关,允许在任何分辨率下清晰缩放。它易于编辑,可以动态更改图形属性,如线条颜色、宽度和样式,增强交互性和个性化。

它是如何工作的?

原始输入字母初始化为一组连通的三次贝塞尔曲线,由一组控制点表示。我们的方法预测每个控制点在每帧的位移。

图片模型体系结构概述。给定一个表示为一组控制点的字母,基场将其变形为共享基形,从而设置添加每帧位移的阶段。然后,我们在 k 帧之间复制基形,并利用运动场来预测每个帧上每个控制点的位移,将运动注入基形。然后,每一帧都由可微光栅器 R 渲染并连接为输出视频。使用分数蒸馏采样,在可读性L可读性和结构保留L结构的正则化下,通过冷冻预训练视频基础模型的视频先验(LSDS)共同优化基础场和运动场。

图片

比较

我们将我们的方法与三个基线模型进行了比较:两个基于像素的模型(t2v 模型 Gen-2、i2v 模型 DynamiCrafter)和一个基于矢量的动画模型(LiveSketch)。对于文本到视频的生成,我们在提示后附加“看起来像一个字母 §”,其中 § 表示要动画化的特定字母。在图像到视频的情况下,我们使用单词作为图像生成的程式化字母作为条件图像。在基于矢量的场景中,我们利用 LiveSketch 作为框架来制作矢量图像的动画。为了确保公平的比较,我们也根据单词即图像生成的程式化字母来调整动画。

最后