Generating 3D Faces using Multi-column Graph Convolutional Networks

引言：介绍了生成3D人脸模型的重要性和挑战，并简要介绍了传统方法和深度学习方法在该领域的应用情况。
相关工作：回顾了与生成3D人脸模型相关的传统方法和深度学习方法，包括基于统计形状模型、基于深度神经网络和基于图卷积网络的方法。
方法介绍：详细介绍了使用多列图卷积网络生成3D人脸模型的方法。描述了图卷积网络的基本原理和多列架构的设计，以及每个列的具体结构和功能。
实验设计：说明了实验的设置和数据集的选择，包括用于训练和测试的2D图像和3D人脸模型的数据集。还介绍了评估指标和实验的具体步骤。
实验结果：展示了生成的3D人脸模型的质量和多样性，并与其他方法进行了比较。通过定量和定性的评估指标，证明了该方法在生成3D人脸模型方面的有效性和优越性。
讨论和结论：对实验结果进行讨论，分析了方法的优势和局限性。总结了该方法的贡献和未来的研究方向。

提出了一种使用多列图卷积网络生成3D人脸模型的方法

该方法的主要目标是通过输入的2D图像生成对应的3D人脸模型。为了实现这一目标，论文使用了一种基于图卷积网络的多列架构。

首先，论文将2D图像中的每个像素点与3D人脸模型中的相应点建立对应关系，形成一个图结构。然后，论文提出了一种多列架构，每列都包含了一个图卷积网络，用于对不同层次的特征进行提取和学习。这些列之间相互独立，并且通过信息传递和融合来生成最终的3D人脸模型。

具体来说，每个图卷积网络列接受输入的2D图像和前一列的输出作为输入，并通过卷积和池化等操作提取特征。然后，通过信息传递和融合的方式，将特征传递给下一列进行进一步的学习和处理。最后一列输出的特征表示被用于生成最终的3D人脸模型。

该方法的优势在于通过图卷积网络可以有效地处理图结构数据，将2D图像和3D人脸模型之间的对应关系进行建模。多列架构的设计使得网络可以从不同层次的特征中学习，从而提高了生成3D人脸模型的准确性和多样性。

1 Introduction

主要贡献：

提出多列图卷积网络（Multi-column graph convolutional networks，MGCNs）.
提出一种选择性融合方式.
性能提升

2 Related Work

2.1. Face Representation

人脸建模是计算机视觉和图形学中一个具有挑战性的课题。现有工作主要分为两类：基于PCA的线性方法和基于深度学习的非线性方法。

3 Methodology

本部分介绍了文中提出的方法的框架和细节。首先，定义了一个3D人脸表示，它使用带有图卷积算子的卷积层来表示人脸( 3.1节)。然后，详细阐述了为最小化误差而专门设计的网络架构和损失函数( 3.2节)。最后，给出了具有生成能力的变分自编码器公式( 3.3节).

3.1 Overview

3D Face Representation. 将一个人脸曲面表示为顶点 $\mathcal V$ 和边 $\mathcal E$ 的集合。因此所有顶点的坐标构成一个矩阵 $V\in\mathbb{R}^{n\times{3}}$ 。用邻接矩阵 $A\in\{0,1\}^{n\times n}$ 表示边，其中 $a_{ij}$ = 1表示顶点 $v_i$ 和 $v_j$ 之间的边连接，否则 $a_{ij}$ = 0。

3.2 Multi-column Graph Convolution Networks

MGCN整体结构如图2所示

1）多列GCN，包括L-GCN，M-GCN，和S-GCN
2）选择性融合不同列图卷积进行特征融合
3）自注意力机制探索跨空间维度的局部特征，以提高深度模型的表示能力
4 )基于潜在向量的变分损失

Multi-column Architecture. 在MGCN中，对于每一列，都使用不同大小的滤波器来提取不同尺度的特征。例如，将有较大感受野的滤波器应用于提取大尺度特征，用较小感受野的滤波器来提取小尺度特征。文中进一步提出了一种选择性融合方法来选择性融合这些特征信息。

Selective Fusion 在经过多尺度卷积后，得到三个可以作为输入的特征图。将这三个特征图分别记为 $\mathbf{Z}_{GCN_i}$ (对于L-GCN、M-GCN和S-GCN , i = 1 , 2 , 3)。文中将每个特征图乘以一个可学习的参数 $w_i$ ，并将它们的和约束为1:

\mathbf{Z}=\sum_{i=1}^3w_i\mathbf{Z}_{GCN_i},\quad\text{s.t.}\quad\sum_{i=1}^3w_i=1,\qquad(2)

其中 $w_i$ 是第 $i$ 列权重对应的可学习参数， $\mathbf{Z}_{GCN_i}$ 是该列的特征图。 $w_i$ 可以看成特征在不同尺度下的重要性。这些权重在训练过程中被优化，它们决定了不同尺度的重要性，以帮助生成更好的潜在向量

Self-Attention 注意力模块将更广泛的上下文信息编码为局部特征，从而增强其表征能力。遵循图3中的自注意力操作，文中使用深度神经网络中的一个通用模块：

\mathbf{0}_i=\frac{1}{N}\sum\limits_{\forall i}h\left(\mathbf{A}_i,\mathbf{B}_j\right)t\left(\mathbf{Z}_j\right)+\mathbf{Z}_i,\qquad(3)

4 Experimental Results

由图4（a），图4a为累积欧氏误差直方图，表示给定误差界( x轴)内顶点( y轴)所占比例。对于1 mm的精度界限，MGCN捕获了81.1 %的顶点，而CoMA模型仅捕获了72.3 %。对图5中的定性结果进行目视检查，可以看出作者重建的网格更加真实合理。

4.2 Ablation Study

Component Module Analysis

为了探究不同尺度的卷积如何影响网络性能，文中分别对每一列进行解码。如表6所示，对不同卷积核大小的特征图进行解码，分别包括2、4、6、8、10、12。可以看出，过大或过小的卷积核都不能很好地发挥作用。虽然中等大小的卷积核表现出较好的性能，但与多列卷积(见表5)的结果仍有较大差距。

图7，对比不同层数的多列GCN，研究网络复杂度对性能的影响。可以看出，在四层结构下取得了最好的结果。