sememes的潜在空间思考核心问题找到可以在文本特征的latent space中得到解释的direction 针对图

NLP中的latent space

在nlp领域，直接上GAN model来操作latent code存在一些问题，图中是一个例子，在latent space遨游的时候，中间的句子不make sense。

最简单的解决方法是用VAE而不是用GAN。GAN本身的训练方式是非常依赖连续空间的。在训练的时候，我们的目标就是连续空间上的pixel值。在这一点上，VAE就没有这个假设。因此VAE是自然的选择。

监督简单的分类器、SVM向量机等。
文章：
Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis Interpreting the Latent Space of GANs for Semantic Face Editing
GANalyze Toward Visual Definitions of Cognitive Image Properties
自监督自己对同一张图像进行前后编辑得到两张图像作为 $y$ 和 $y'$ 然后训练。
需要属性简单易观测和量化（大小、位置...）。
文章：
On the steerability of generative adversarial networks
Controlling generative models with continuous factors of variations
无监督矩阵分解：通过特征分解得出多个direction。
联合训练：将direction组成的矩阵作为训练的参数。
往往需要一个个试direction对应的属性。
文章：
Closed-Form Factorization of Latent Semantics in GANs
Unsupervised Discovery of Interpretable Directions in the GAN Latent Space

y' = F_1(z') = F_1(z + αn) = Az + b + αAn = y + αAn

n^* = {\underset {n ∈ R^d: n^Tn=1}{\operatorname {arg\,max} }}\ ||An||^2_2

N^* = {\underset {N ∈ R^{d×k}: n_i^Tn_i=1 \forall i=1,...,k}{\operatorname {arg\,max} }}\ \sum_{i=1}^k||An_i||^2_2

= {\underset {N ∈ R^{d×k}}{\operatorname {arg\,max} }}\ \sum_{i=1}^k||An_i||^2_2 - \sum_{i=1}^k λ_i(n_i^T n_i − 1)

= {\underset {N ∈ R^{d×k}}{\operatorname {arg\,max} }}\ \sum_{i=1}^k(n_i^tA^TAn_i - λ_in_i^Tn_i+λ_i)

A^TAn_i = λ_in_i

A^TA = Q\Lambda Q^T

在我们构造的网络中，如果可以得到针对latent code的第一层映射 $F$ 的网络参数 $A$ ，那么利用它做特征分解得到若干的direction，然后将它们对应的属性试出来。

联合学习 $A$ 和 $B$ ，固定 $Decoder$ 。

矩阵 $A ∈ R^{d×k}$ ，其中 $d$ 等于潜在空间的维数， $k$ 等于我们想要试图发现的direction的数量（取决于网络模型和数据集）。 $k$ 表示one-hot 向量 $e^k$ 的第 $k$ 维为1，乘上矩阵 $A$ 后，也就等效于选择了 $A$ 中的第k个direction。 $ε$ 衡量对这个direction我们的变化程度。

z' = z + A(εe_k)

重构器 $R$ ，其输入是一对单词 $W_1$ 、 $W_2$ ，即 $D(z)$ 和 $D(z + A(εe_k))$ 。 $B$ 输出一个标量对 $(k', ε')$ ，也就是找出之前选择的direction $k$ ，和变化的幅度。

优化目标：

为什么这种方法会有效呢？

从词语的语义属性中，选择比较直观，便于衡量的入手，构造可用于监督或自监督的标签。 从词性入手：
构造word-pair（x1，x2），比如对于动词和名词，构建 (饭，吃饭)，(菜，吃菜)，(书，看书)，（画，看画）...
$z_1$ 和 $z_2$ 对应 $x_1$ 和 $x_2$ 的表征， $D$ 是decoder。
利用：

n^* = {\underset {n}{\operatorname {arg\,min} }}\,E_{z,α}[HowNet(D(z_1+αn), D(z_2)]

$HowNet(D(z1),D(z2))$ 用于衡量两个单词的语义相似度，优化目标是最小化其差异。

从数量词入手：
对于 $Number= F(z)$ ，尝试找到 $n$ ，使 $Number' = F(z + αn)$ 随着 $α$ 有相同变化。