基于深度学习的多模态数据融合(二)

623 阅读3分钟

多模态图像-图像转换网络

Pix2pix 和 Pix2pixHD

Pix2pix 是最早使用条件GAN (cGAN)框架进行图像-图像转换的工作之一,它的目的是学习一个生成器,让一个输入图像xx(例如影像图)转换成另一个模态的输出图像yy(例如彩色图像)。GAN中的生成器仅依赖于一个随机向量zz,而cGAN还依赖于另一个观测变量,这个例子中是输入图像xx

image.png

Pix2pix使用的U-Net架构。进一步的工作为Pix2pixHD,它通过语义标签地图老生成2048 X 1024的高分辨率图像。

CycleGAN, DiscoGAN 和 DualGAN

这三者的架构类似,如图2.11所示。假设x,yx,y是来自源域XX和目标域YY的样本,之前提到的Pix2pix方法仅学习一个映射:GY:XYG_Y:X\rightarrow Y,而CycleGAN还学习另一个映射:GX:YXG_X:Y\rightarrow X。如图2.11A所示,两个生成器Gy,GxG_y,G_x和两个鉴别器Dy,DxD_y,D_x联合优化。图2.11B中,GyG_yxx转换为yy'然后输入GxG_x中生成xx',图2.11C同理。输入和输出间的l1l_1距离称为 cycle-consistency loss。

image.png

CoGAN

一个耦合生成对抗的网络称为CoGAN,它用于学习多模态图像间的联合分布,它由一对GAN组成,每个GAN集成了一个领域内的图像,如图2.12所示,两个GAN共享一个参数子集。它的基础思想认为两个领域的一对相关图像会共享相同的高级语义。

image.png

UNIT

无监督图像-图像转换(UNIT)网络,组合和VAE-GAN模型和CoGAN模型,如图2.13所示。

image.png

Triangle GAN

Triangle GAN的目的是半监督跨领域分布匹配,这个框架只需要两个不同领域中的少量的配对样本作为监督,如图2.14所示。从图中可以看出,辨别器的目的就是识别两个生成器产生的假样本对(x,y),(x,y)(x',y),(x,y')和真实的样本对(x,y)(x,y)

image.png

Triangle GAN 可以看做是cGAN和BiGAN的组合:

image.png

多模态编码器-解码器网络

多模态编码器-解码器网络的架构如图2.15所示,利用不同任务间的共性,所有编码器-解码器对通过共享隐藏表示被连接起来。给定一个输入模态,编码器产生一个单一的表示,然后通过不同的解码器解码成所有可用的模态。通过考虑到不同模式之间转换任务的所有组合,对整个网络进行了训练。

image.png

模型架构

如图2.15所示,编码器中的每个卷积层(Conv)后都连接一个批标准化层(Norm),然后再连接一个激活层(ReLU)。在7个Conv+Norm+ReLU组件中设置了两个最大池化操作,令潜在表示的维数为输入的1/16,解码器也是类似的构造除了最后一层以外,最后一层的池化操作改为不池化操作用于扩展一个特征映射。最大池化操作通过取最大值来池化一个特征映射,而去池化操作则通过一个存储了最大值位置的转换器来恢复被池化的特征映射。解码器的输出会被重缩放为原始输入的规模。

多任务训练

在训练阶段,一批训练数据通过所有转发路径来计算损失值。