介绍
该论文提出了一种机器学习技术,可以实时地、低延迟地通过音频输入驱动3D面部动画。该深度学习神经网络学习了一个从输入波形到面部模型的3D定点坐标的映射。
输入输出
如图,输入为音频,输出为面部顶点位置。
整体架构
该网络由一个专用层、10个卷积层和2个全连接层组成,将他们分为三个概念部分。如下表。
1)Formant analysis network
发音分析网络,由自相关网络和5个卷积层组成。先使用自相关分析提取原始共振峰信息,然后通过5个卷积层进行细化。在此期间提取语调、重音和特定音素等特征。
2)Articulation network
发音网络,由5个卷积层组成。分析特征的时间演变,并最终输出一个单一的抽象特征向量。
3) Output network
输出网络,由两个全连接层组成。第一层将输入特征集映射到线性基的权重,第二层计算最终顶点位置。最终输出5022个顶点的最终位置。
贡献点
- 一种卷积网络架构,专门用于有效处理人类语音并在不同的说话者之间进行泛化。
- 一种新颖的方法,使网络能够发现训练数据中不能仅通过音频解释的变化,即明显的情感状态
- 一种三路损失函数,以确保网络在动画下保持时间稳定和响应性,即使训练数据非常模糊
音频处理
在被馈送到网络之前将语音音频信号转换成16 kHz单声道,并将其音量规范化,以利用[-1,+1]动态范围。
自相关层将输入音频转换成2D表现形式。
训练
训练目标
使用DI4D PRO系统获得用作训练目标的3D顶点位置。
训练数据集
训练集由两部分组成:全字母句和In-character material。
- 全字母句:试图覆盖给定目标语言正常语音期间可能出现的可能的面部动作。
- In-character material:利用了演员表演角色时情感和表现范围的偏差。只有被认为能够支持角色不同方面的镜头才会被选中。
损失函数
损失函数由三个不同的项组成:
position term:确保每个输出顶点的整体位置大致正确。主要误差度量是期望输出y和网络产生的输出之间平方差的平均值。
motion term:给定的输出顶点只有在训练数据中也移动时才会移动,而且只能在正确时间才能移动。
Regularization term:确保网络正确地将短期效应归因于音频信号,将长期效应归因于情感状态。