引言
领域背景和挑战
面部重演(face reenactment)是指将面部表情从源人脸转移到目标人脸的任务,在电影制作、面部动画和增强现实方面应用广泛。
本文专注于一个具有挑战性的任务:多身份面部重演(multi-identity face reenactment),其中源人脸来自任意人,目标人脸不是特定的。这一任务与一对一(one-to-one)或多对一(many-to-one)面部重演任务的区别在于目标人脸是否是特定的。
现有工作的不足
在过去的工作中,面部表情迁移和面部重演的方法大致可以分为两类:基于3D模型的合成和基于GAN的生成。
对于基于3D模型的合成方法,人由预定义的参数模型(predefined parametric model)表示。这种方法通常从源视频中捕捉面部动作,并将其拟合到预定义模型的参数空间中,然后通过变形渲染出目标视频。这种方法通常应用于游戏和电影中的CG avadars动画,但是容易受到大预算模型制作的影响、计算成本很高。
对于基于GAN的生成方法,利用其从大规模数据集中学习分布模式的天然优势,最近取得显著的改进。这种方法通常采用编码器-解码器的结构,采用对抗性(adversarial)思想重演目标人脸。进一步的工作引入了循环一致损失(cycle consistent loss)实现不成对的面部重演(unpaired face reenactment)。然而,上述工作的网络经过训练后,只能在两个特定的身份之间重演人脸。随后,多对一(many-to-one)人脸重演任务解决了这一问题,可以使用同一个训练好的网络将多个源人脸重演为同一个目标人脸。然而,在实际应用中,对于每个目标人脸都需要一个Transformer模块和一个Decoder模块,效率仍是低下的。因此,实现多身份人脸重演(multi-identity face reenactment)任务有重要的意义,即多对多(many-to-many)人脸重演,源人脸和目标人脸都可以来自不同的人,并能够在统一的网络中完成重演。
X2Face采用嵌入网络对嵌入人脸进行编码,然后使用驱动网络重新生成目标人脸,从而完成多身份人脸重演任务,但生成的图像在质量和面部细节方面并不令人满意。总结起来,多身份人脸重演任务仍然存在两个主要的挑战:
(1)如何通过统一网络转换多身份面部表情,考虑到源人脸和目标人脸之间的面部轮廓存在差距
(2)如何在保持一致的姿态、色调和光照的情况下,将源人脸重演为逼真且身份与目标人脸一致的图像
本文工作的贡献
为了解决这一任务,本文提出了FReeNet框架,是第一个成功使用统一模型执行多身份人脸重演任务,同时保持了姿态、色调、光照与目标人脸一致。具体来说,FReeNet做出如下贡献:
(1)提出统一的界标(landmark)转换器,能够将源人脸的表情转换到目标人脸上,而源人脸和目标人脸都来自不特定的人
(2)提出一个几何感知(geometry-aware)生成器,用于重演逼真的目标人脸。该生成器采用解耦思想,从不同的路径中提取外观和几何信息
(3)提出一种新的三元组感知损失(triplet perceptual loss),丰富重演面部的面部细节
(4)实验结果表明,该方法实现了多身份人脸重演任务,可以生成高质量和身份一致的人脸图像
模型介绍
模型总览
FReeNet的总体框架详见原文Fig.2。
(1)首先,使用人脸界标检测器(face landmark detector)将两个输入图像和编码到隐界标空间(latent landmark space)成为和()。其中第一个下标代表身份,第二个下标代表表情。如就是带有参考表情的目标人脸,本文中参考表情是中性表情。
(2)然后,使用统一的界标转换器(unified landmark converter)将源表情修改到目标人脸上,即。
(3)最后,几何感知生成器(geometry-aware generator)同时利用几何信息和外观信息重演目标人脸,即。其中表示使用生成的界标向量绘制的界标图。
(4)此外,引入三元组感知损失来提升GAG的性能。
统一界标转换器(unified landmark converter)
TODO
几何感知生成器(geometry-aware generator)
TODO
三元组感知损失(triplet perceptual loss)
TODO
实验结果
TODO