介绍

由迪斯尼出产的一篇自动生成与输入语音同步的语音动画的论文。在文中使用滑动窗口预测器，学习从音素标注输入序列到口腔运动的非线性映射。

输入输出

输入为说话的音频，经过语音识别和滑动窗口预测，输出为语音动画。

数据集使用KB-2K数据集。包括一个说话者以中性语调朗诵的2543个语音不同的TIMIT句子。视频中的人脸正面朝上，以1080p 29.93格式捕捉。

使用一个全连接前馈神经网络。该网络由一个输入层连接到三个全连接隐藏层和一个最终输出层。每个隐藏层有3000个隐藏单元。采用标准的小批量随机梯度下降法进行训练，小批量为100。最后的输出层是标准的多限行回归训练，以最小化平方损失。

简单地将每个输入帧的音素特征指示变量的特征向量连接起来。由于数据集包含41个音素，这将产生一个 $41\times K_x$ 维的输入特征向量来表示每个输入子序列 $\widehat{x}$ 。称之为原始特征表示。

还采用了语言特征表示法。这些都是与输入子序列 $\widehat{x}$ 是否满足特定条件相对应的指标特征。我们按程序生成三组特征：

跨越特定位置的音素识别。该组中的每个特征都对应于一个指示函数，指示特定的声母是否跨越特定的帧集。例如，声母/s/是否跨越了输入子序列的j到k帧。
特定位置的音素属性类别。该组中的每个特征都对应于一个指示函数，指示在特定帧位置上是否有属于特定类别的手机。例如，在输入的第j帧处的声母是鼻辅音吗？
特定位置的音素转换。该组中的每个特征都对应于一个指示函数，指示相邻两个帧是否对应于特定类型的音素转换。例如，第k个和第k+1个输入帧中的声母是否在辅音-元音对的特定群组中？

基于以下假设。

假设1。共发音效应在时域上可以标出很大范围的随语境变化的曲率。

假设2.共发音效应是局部的，并且没有表现出长程依赖性。例如，如何表达“预测”的结尾与如何表达“构造”的结果实际上是一样的，并不取决于这两个词的开头。

如图，我们的预测流程，可以概括为：

（1）将输入音素序列x分解为窗口大小为 $K_$ 的重叠定长输入 $\left( \widehat{x}_1,\widehat{x}_2,...,\widehat{x}_T \right)$ 。

（2）对每个 $\widehat{x}_j$ ,使用h进行预测，得到结果为每个窗口大小为 $K^y$ 的重叠定长输出序列 $\left( \widehat{y}_1,\widehat{y}_2,...,\widehat{y}_T \right)$ 。

（3）构建最后的动画序列 $y$ 通过使用帧平均值将 $\left( \widehat{y}_1,\widehat{y}_2,...,\widehat{y}_T \right)$ 混合在一起。

主要的实际限制是，动画预测是根据参考面AAM参数化进行的。这使得该方法可以通用于任何内容，但对角色的重新定位引入了潜在的错误元。在为重定向形状设置初始角色时，必须注意保持预测动画的一致性。