论文阅读:Audio-Driven Facial Animation by Joint End-to-End Learning of Pose and Emot

218 阅读2分钟

介绍

该论文提出了一种机器学习技术,可以实时地、低延迟地通过音频输入驱动3D面部动画。该深度学习神经网络学习了一个从输入波形到面部模型的3D定点坐标的映射。

输入输出

如图,输入为音频,输出为面部顶点位置。

整体架构

该网络由一个专用层、10个卷积层和2个全连接层组成,将他们分为三个概念部分。如下表。

image.png 1)Formant analysis network

发音分析网络,由自相关网络和5个卷积层组成。先使用自相关分析提取原始共振峰信息,然后通过5个卷积层进行细化。在此期间提取语调、重音和特定音素等特征。

2)Articulation network

发音网络,由5个卷积层组成。分析特征的时间演变,并最终输出一个单一的抽象特征向量。

3) Output network

输出网络,由两个全连接层组成。第一层将输入特征集映射到线性基的权重,第二层计算最终顶点位置。最终输出5022个顶点的最终位置。

贡献点

  • 一种卷积网络架构,专门用于有效处理人类语音并在不同的说话者之间进行泛化。
  • 一种新颖的方法,使网络能够发现训练数据中不能仅通过音频解释的变化,即明显的情感状态
  • 一种三路损失函数,以确保网络在动画下保持时间稳定和响应性,即使训练数据非常模糊

音频处理

在被馈送到网络之前将语音音频信号转换成16 kHz单声道,并将其音量规范化,以利用[-1,+1]动态范围。

自相关层将输入音频转换成2D表现形式。

训练

训练目标

使用DI4D PRO系统获得用作训练目标的3D顶点位置。

训练数据集

训练集由两部分组成:全字母句和In-character material。

  • 全字母句:试图覆盖给定目标语言正常语音期间可能出现的可能的面部动作。
  • In-character material:利用了演员表演角色时情感和表现范围的偏差。只有被认为能够支持角色不同方面的镜头才会被选中。

损失函数

损失函数由三个不同的项组成:

position term:确保每个输出顶点的整体位置大致正确。主要误差度量是期望输出y和网络产生的输出y^\widehat y之间平方差的平均值。 image.png

motion term:给定的输出顶点只有在训练数据中也移动时才会移动,而且只能在正确时间才能移动。

image.png

Regularization term:确保网络正确地将短期效应归因于音频信号,将长期效应归因于情感状态。

image.png

image.png