基于深度学习的多模态数据融合（一）原文链接背景知识多任务学习多任务学习的目标是：从一个特定任务中发掘可以适用于其他

背景知识

多任务学习

多任务学习的目标是：从一个特定任务中发掘可以适用于其他任务的特征表示方法。场景分类、语义分割、字符识别、深度估计等多任务都可以通过一个RGB图像的单一模态输入来解决，这称为单模态多任务学习，而使用多个模态输入的则称为多模态多任务学习。

多模态数据特征表示

基于多模态数据的单任务和多任务学习方法都专注于从多模态数据中获得更好的共享表示方法，直接将从不同模式中提取的特征串联的方式显然效果不佳。之前的一些改进方法包括奇异值分解、编码器-解码器（encoder–decoder）、自动编码器（auto-encoder）和监督映射（supervised mapping）等。

多模态深度学习的基础：VAEs 和 GANs

本节介绍多模态图像转换深度学习的基础知识。首先介绍自动编码器，它是由编码器和解码器组成的最基本的神经网络，然后引入自动编码器的一个重要扩展，称为 variational auto-encoder (VAE)，然后介绍生成式对抗网络(GAN)，它是用于多模态数据生成深度学习网络最知名的方法。

自动编码器 Auto-Encoder

如图2.2所示，自动编码器是一种由一个编码器网络和一个解码器网络组成的神经网络。

其输入为向量 $x \in \mathbb{R}^d$ ，使用一个编码器将其映射为一个潜在向量（latent variable） $z \in \mathbb{R}^r$ ， $r$ 通常远小于 $d$ 。在通过一个解码器将 $z$ 映射为输出 $x\ \in \mathbb{R}^d$ ，这称为对输入 $x$ 的重构（reconstruction）。自动编码器的训练目标是使编码器和解码器间的训练误差最小化，其中一种误差设置方式（平方误差）如下所示：

L_{AE}=E_x[||x-x'||^2]

自动编码器的目的通常是降维，或者换句话说，无监督的特征/表示学习。

VAEs

variational auto-encoder (VAE) 将一个自动编码器当作一个生成模型，其中的数据是由一些条件分布生成的，条件分布用 $p(x|z)$ 来表示。用 $\phi$ 和 $\theta$ 来表示编码器和解码器的参数。显然，编码器可以被描述为一个识别模型 $q_{\phi}(z|x)$ ，而解码器则可以被描述为对于真实后验的一个近似值 $p_{\theta}(x|z)$ 。

VAEs的架构如图2.3所示，其中 $\mu$ 和 $\sigma$ 为编码器输出的近似后验的均值和标准差。在实际应用中，对于样本 $i$ 其潜在变量 $z_i$ 的计算方法为：

z_i=\mu+\sigma_i\cdot \epsilon, \ \ \epsilon \sim N(0,I)

Generative Adversarial Network GAN

GAN是最成功的数据生成框架之一，它由生成器 $G$ 和鉴别器 $D$ 组成，如图2.4所示，它们以竞争的方式协同优化。

直观而言，生成器的目标是通过随机噪声变量 $z$ 来生成一个样本 $x'$ 来尽可能欺骗鉴别器，使其相信 $x'$ 是真实的样本，而鉴别器的目标显然是区分真假样本。其目标函数为：

\min_G\max_D L_{GAN},\ \ L_{GAN}=E_{x\sim p_{data}}[\log D(x)] +E_{z\sim p_{(z)}}[\log (1-D(G(z)))]

可以看到这是一个简单的交叉熵损失函数。

深度卷积GAN DCGAN

DCGAN提出使用GAN来生成自然图像，由一系列四个分步卷积组成，这些卷积将一个100维的随机向量(均匀分布)转换成一个64 × 64像素的图像，其生成的图像在分辨率上存在一定的局限性。因此，StackGAN进一步改进实现生成高分辨率图像，StackGAN中的Stage-I GAN生成器可以生成低分辨率(64 × 64)的图像，低分辨率图像被输入到Stage-II GAN生成器中，输出高分辨率(256 × 256)图像。

VAE-GAN

VAE-GAN结合了VAE和GAN，如图2.5所示。

Adversarial Auto-Encoder AAE

AAE架构如图2.6所示，是一种概率自动编码器，它假设潜在变量的先验。其中 $p(z)$ 为我们想要的先验分布。

Adversarial Variational Bayes AVB

AVB在VAE上使用对抗训练，其能够使用任意复杂推理模型，如图2.7所示，其推理模型（即编码器）将噪声 $\epsilon$ 作为辅助输入。

ALI 和 BiGAN

Adversarially learned inference (ALI)和 Bidirectional GAN (BiGAN)几乎同时被提出，并拥有意义的模型架构，如图2.8所示。

模型由两个生成器 $G_z(x)$ 和 $G_x(z)$ 组成，其对应于编码器和解码器，以及一个鉴别器 $D(x,z)$ 。ALI 和 BiGAN 的优点在于，原始的GAN可能忽缺乏从 $x$ 推理 $z$ 的能力，而ALI 和 BiGAN 则引入了潜在变量映射，同自动编码器类似。