论文阅读:A Deep Learning Approach for Generalized Speech Animation

234 阅读4分钟

介绍

由迪斯尼出产的一篇自动生成与输入语音同步的语音动画的论文。在文中使用滑动窗口预测器,学习从音素标注输入序列到口腔运动的非线性映射。

输入输出

输入为说话的音频,经过语音识别和滑动窗口预测,输出为语音动画。

image.png

数据集

数据集使用KB-2K数据集。包括一个说话者以中性语调朗诵的2543个语音不同的TIMIT句子。视频中的人脸正面朝上,以1080p 29.93格式捕捉。

贡献点

  • 定义机器学习任务用于自动生成语音动画可集成到现有管线中的语音动画。特别是,将该任务定义为与说话者无关,并且生成的动画可以被重定向到任务动画设备上。
  • 一种深度学习方法,可直接学习从语音表征到可视语音的非线性映射,这种方法自然地包含了局部语境和共同发音效应,并可生成高保真语音动画。
  • 与强大极限相比的经验评估。我们包括定量和定性评估,以证明我们的方法提高了性能。
  • 证明该方法易于部署。提供了各种角色和声音的动画短片,包括演唱前述语言的例子,以及按需外语演示,以及按需用户输入音频的语音动画演示。

方法

整体架构

使用一个全连接前馈神经网络。该网络由一个输入层连接到三个全连接隐藏层和一个最终输出层。每个隐藏层有3000个隐藏单元。采用标准的小批量随机梯度下降法进行训练,小批量为100。最后的输出层是标准的多限行回归训练,以最小化平方损失。

特征表示

简单地将每个输入帧的音素特征指示变量的特征向量连接起来。由于数据集包含41个音素,这将产生一个41× Kx41\times K_x维的输入特征向量来表示每个输入子序列x^\widehat{x}。称之为原始特征表示。

还采用了语言特征表示法。这些都是与输入子序列x^\widehat{x}是否满足特定条件相对应的指标特征。我们按程序生成三组特征:

  • 跨越特定位置的音素识别。该组中的每个特征都对应于一个指示函数,指示特定的声母是否跨越特定的帧集。例如,声母/s/是否跨越了输入子序列的j到k帧。
  • 特定位置的音素属性类别。该组中的每个特征都对应于一个指示函数,指示在特定帧位置上是否有属于特定类别的手机。例如,在输入的第j帧处的声母是鼻辅音吗?
  • 特定位置的音素转换。该组中的每个特征都对应于一个指示函数,指示相邻两个帧是否对应于特定类型的音素转换。例如,第k个和第k+1个输入帧中的声母是否在辅音-元音对的特定群组中?

深度学习滑动窗口回归

基于以下假设。

假设1。共发音效应在时域上可以标出很大范围的随语境变化的曲率。

假设2.共发音效应是局部的,并且没有表现出长程依赖性。例如,如何表达“预测”的结尾与如何表达“构造”的结果实际上是一样的,并不取决于这两个词的开头。

如图,我们的预测流程,可以概括为:

(1)将输入音素序列x分解为窗口大小为K_的重叠定长输入( x^1,x^2,...,x^T )\left( \widehat{x}_1,\widehat{x}_2,...,\widehat{x}_T \right)

(2)对每个x^j\widehat{x}_j,使用h进行预测,得到结果为每个窗口大小 为KyK^y的重叠定长输出序列( y^1,y^2,...,y^T )\left( \widehat{y}_1,\widehat{y}_2,...,\widehat{y}_T \right)

(3)构建最后的动画序列yy通过使用帧平均值将( y^1,y^2,...,y^T )\left( \widehat{y}_1,\widehat{y}_2,...,\widehat{y}_T \right)混合在一起。

image.png

限制

主要的实际限制是,动画预测是根据参考面AAM参数化进行的。这使得该方法可以通用于任何内容,但对角色的重新定位引入了潜在的错误元。在为重定向形状设置初始角色时,必须注意保持预测动画的一致性。