【论文精读】FReeNet: Multi-Identity Face Reenactment

928 阅读4分钟

引言

领域背景和挑战

面部重演(face reenactment)是指将面部表情从源人脸转移到目标人脸的任务,在电影制作、面部动画和增强现实方面应用广泛。

本文专注于一个具有挑战性的任务:多身份面部重演(multi-identity face reenactment),其中源人脸来自任意人,目标人脸不是特定的。这一任务与一对一(one-to-one)或多对一(many-to-one)面部重演任务的区别在于目标人脸是否是特定的。

现有工作的不足

在过去的工作中,面部表情迁移和面部重演的方法大致可以分为两类:基于3D模型的合成和基于GAN的生成。

对于基于3D模型的合成方法,人由预定义的参数模型(predefined parametric model)表示。这种方法通常从源视频中捕捉面部动作,并将其拟合到预定义模型的参数空间中,然后通过变形渲染出目标视频。这种方法通常应用于游戏和电影中的CG avadars动画,但是容易受到大预算模型制作的影响、计算成本很高。

对于基于GAN的生成方法,利用其从大规模数据集中学习分布模式的天然优势,最近取得显著的改进。这种方法通常采用编码器-解码器的结构,采用对抗性(adversarial)思想重演目标人脸。进一步的工作引入了循环一致损失(cycle consistent loss)实现不成对的面部重演(unpaired face reenactment)。然而,上述工作的网络经过训练后,只能在两个特定的身份之间重演人脸。随后,多对一(many-to-one)人脸重演任务解决了这一问题,可以使用同一个训练好的网络将多个源人脸重演为同一个目标人脸。然而,在实际应用中,对于每个目标人脸都需要一个Transformer模块和一个Decoder模块,效率仍是低下的。因此,实现多身份人脸重演(multi-identity face reenactment)任务有重要的意义,即多对多(many-to-many)人脸重演,源人脸和目标人脸都可以来自不同的人,并能够在统一的网络中完成重演。

X2Face采用嵌入网络对嵌入人脸进行编码,然后使用驱动网络重新生成目标人脸,从而完成多身份人脸重演任务,但生成的图像在质量和面部细节方面并不令人满意。总结起来,多身份人脸重演任务仍然存在两个主要的挑战:

(1)如何通过统一网络转换多身份面部表情,考虑到源人脸和目标人脸之间的面部轮廓存在差距

(2)如何在保持一致的姿态、色调和光照的情况下,将源人脸重演为逼真且身份与目标人脸一致的图像

本文工作的贡献

为了解决这一任务,本文提出了FReeNet框架,是第一个成功使用统一模型执行多身份人脸重演任务,同时保持了姿态、色调、光照与目标人脸一致。具体来说,FReeNet做出如下贡献:

(1)提出统一的界标(landmark)转换器,能够将源人脸的表情转换到目标人脸上,而源人脸和目标人脸都来自不特定的人

(2)提出一个几何感知(geometry-aware)生成器,用于重演逼真的目标人脸。该生成器采用解耦思想,从不同的路径中提取外观和几何信息

(3)提出一种新的三元组感知损失(triplet perceptual loss),丰富重演面部的面部细节

(4)实验结果表明,该方法实现了多身份人脸重演任务,可以生成高质量和身份一致的人脸图像

模型介绍

模型总览

FReeNet的总体框架详见原文Fig.2

(1)首先,使用人脸界标检测器(face landmark detector)将两个输入图像IT,r\boldsymbol{I}_{T,r}IS,n\boldsymbol{I}_{S,n}编码到隐界标空间(latent landmark space)成为lT,r\boldsymbol{l}_{T,r}lS,n\boldsymbol{l}_{S,n}R3×256×256R106×2\mathbb{R}^{3 \times 256 \times 256} \rightarrow \mathbb{R}^{106 \times 2})。其中第一个下标代表身份,第二个下标代表表情。如IT,r\boldsymbol{I}_{T,r}就是带有参考表情的目标人脸,本文中参考表情是中性表情。

(2)然后,使用统一的界标转换器(unified landmark converter)将源表情修改到目标人脸上,即ψ:(lT,r,lS,n)l^T,n\psi:(\boldsymbol{l}_{T,r},\boldsymbol{l}_{S,n}) \rightarrow \hat{\boldsymbol{l}}_{T,n}

(3)最后,几何感知生成器(geometry-aware generator)同时利用几何信息L^T,nR1×64×64\hat{\boldsymbol{L}}_{T,n} \in \mathbb{R}^{1 \times 64 \times 64}和外观信息I^T,rR3×256×256\hat{\boldsymbol{I}}_{T,r} \in \mathbb{R}^{3 \times 256 \times 256}重演目标人脸I^T,nR3×256×256\hat{\boldsymbol{I}}_{T,n} \in \mathbb{R}^{3 \times 256 \times 256},即ϕ:(L^T,n,I^T,r)I^T,n\phi:(\hat{\boldsymbol{L}}_{T,n},\hat{\boldsymbol{I}}_{T,r}) \rightarrow \hat{\boldsymbol{I}}_{T,n}。其中L^T,n\hat{\boldsymbol{L}}_{T,n}表示使用生成的界标向量l^T,n\hat{\boldsymbol{l}}_{T,n}绘制的界标图。

(4)此外,引入三元组感知损失来提升GAG的性能。

统一界标转换器(unified landmark converter)

TODO

几何感知生成器(geometry-aware generator)

TODO

三元组感知损失(triplet perceptual loss)

TODO

实验结果

TODO