Generating 3D Faces using Multi-column Graph Convolutional Networks

133 阅读6分钟

Generating 3D Faces using Multi-column Graph Convolutional Networks

  1. 引言:介绍了生成3D人脸模型的重要性和挑战,并简要介绍了传统方法和深度学习方法在该领域的应用情况。
  2. 相关工作:回顾了与生成3D人脸模型相关的传统方法和深度学习方法,包括基于统计形状模型、基于深度神经网络和基于图卷积网络的方法。
  3. 方法介绍:详细介绍了使用多列图卷积网络生成3D人脸模型的方法。描述了图卷积网络的基本原理和多列架构的设计,以及每个列的具体结构和功能。
  4. 实验设计:说明了实验的设置和数据集的选择,包括用于训练和测试的2D图像和3D人脸模型的数据集。还介绍了评估指标和实验的具体步骤。
  5. 实验结果:展示了生成的3D人脸模型的质量和多样性,并与其他方法进行了比较。通过定量和定性的评估指标,证明了该方法在生成3D人脸模型方面的有效性和优越性。
  6. 讨论和结论:对实验结果进行讨论,分析了方法的优势和局限性。总结了该方法的贡献和未来的研究方向。

提出了一种使用多列图卷积网络生成3D人脸模型的方法

该方法的主要目标是通过输入的2D图像生成对应的3D人脸模型。为了实现这一目标,论文使用了一种基于图卷积网络的多列架构。

首先,论文将2D图像中的每个像素点与3D人脸模型中的相应点建立对应关系,形成一个图结构。然后,论文提出了一种多列架构,每列都包含了一个图卷积网络,用于对不同层次的特征进行提取和学习。这些列之间相互独立,并且通过信息传递和融合来生成最终的3D人脸模型。

具体来说,每个图卷积网络列接受输入的2D图像和前一列的输出作为输入,并通过卷积和池化等操作提取特征。然后,通过信息传递和融合的方式,将特征传递给下一列进行进一步的学习和处理。最后一列输出的特征表示被用于生成最终的3D人脸模型。

该方法的优势在于通过图卷积网络可以有效地处理图结构数据,将2D图像和3D人脸模型之间的对应关系进行建模。多列架构的设计使得网络可以从不同层次的特征中学习,从而提高了生成3D人脸模型的准确性和多样性。

1 Introduction

主要贡献:

  1. 提出多列图卷积网络(Multi-column graph convolutional networks,MGCNs).
  2. 提出一种选择性融合方式.
  3. 性能提升

2 Related Work

2.1. Face Representation

人脸建模是计算机视觉和图形学中一个具有挑战性的课题。现有工作主要分为两类:基于PCA的线性方法和基于深度学习的非线性方法。

3 Methodology

本部分介绍了文中提出的方法的框架和细节。首先,定义了一个3D人脸表示,它使用带有图卷积算子的卷积层来表示人脸( 3.1节)。然后,详细阐述了为最小化误差而专门设计的网络架构和损失函数( 3.2节)。最后,给出了具有生成能力的变分自编码器公式( 3.3节).

3.1 Overview

3D Face Representation. 将一个人脸曲面表示为顶点V\mathcal V和边E\mathcal E的集合。因此所有顶点的坐标构成一个矩阵VRn×3V\in\mathbb{R}^{n\times{3}}。用邻接矩阵A{0,1}n×nA\in\{0,1\}^{n\times n}表示边,其中aija_{ij} = 1表示顶点viv_ivjv_j之间的边连接,否则aija_{ij} = 0。

3.2 Multi-column Graph Convolution Networks

image.png

MGCN整体结构如图2所示

1)多列GCN,包括L-GCN,M-GCN,和S-GCN
2)选择性融合不同列图卷积进行特征融合
3)自注意力机制探索跨空间维度的局部特征,以提高深度模型的表示能力
4 )基于潜在向量的变分损失

Multi-column Architecture. 在MGCN中,对于每一列,都使用不同大小的滤波器来提取不同尺度的特征。例如,将有较大感受野的滤波器应用于提取大尺度特征,用较小感受野的滤波器来提取小尺度特征。文中进一步提出了一种选择性融合方法来选择性融合这些特征信息。

Selective Fusion 在经过多尺度卷积后,得到三个可以作为输入的特征图。将这三个特征图分别记为ZGCNi\mathbf{Z}_{GCN_i} (对于L-GCN、M-GCN和S-GCN , i = 1 , 2 , 3)。文中将每个特征图乘以一个可学习的参数wiw_i,并将它们的和约束为1:

Z=i=13wiZGCNi,s.t.i=13wi=1,(2)\mathbf{Z}=\sum_{i=1}^3w_i\mathbf{Z}_{GCN_i},\quad\text{s.t.}\quad\sum_{i=1}^3w_i=1,\qquad(2)

其中wiw_i是第ii列权重对应的可学习参数,ZGCNi\mathbf{Z}_{GCN_i}是该列的特征图。wiw_i可以看成特征在不同尺度下的重要性。这些权重在训练过程中被优化,它们决定了不同尺度的重要性,以帮助生成更好的潜在向量

Self-Attention 注意力模块将更广泛的上下文信息编码为局部特征,从而增强其表征能力。遵循图3中的自注意力操作,文中使用深度神经网络中的一个通用模块:

0i=1Nih(Ai,Bj)t(Zj)+Zi,(3)\mathbf{0}_i=\frac{1}{N}\sum\limits_{\forall i}h\left(\mathbf{A}_i,\mathbf{B}_j\right)t\left(\mathbf{Z}_j\right)+\mathbf{Z}_i,\qquad(3)

image.png

image.png

image.png

4 Experimental Results

image.png

image.png

image.png image.png 由图4(a),图4a为累积欧氏误差直方图,表示给定误差界( x轴)内顶点( y轴)所占比例。对于1 mm的精度界限,MGCN捕获了81.1 %的顶点,而CoMA模型仅捕获了72.3 %。对图5中的定性结果进行目视检查,可以看出作者重建的网格更加真实合理。

4.2 Ablation Study

image.png

Component Module Analysis

image.png
为了探究不同尺度的卷积如何影响网络性能,文中分别对每一列进行解码。如表6所示,对不同卷积核大小的特征图进行解码,分别包括2、4、6、8、10、12。可以看出,过大或过小的卷积核都不能很好地发挥作用。虽然中等大小的卷积核表现出较好的性能,但与多列卷积(见表5)的结果仍有较大差距。

image.png
图7,对比不同层数的多列GCN,研究网络复杂度对性能的影响。可以看出,在四层结构下取得了最好的结果。