RGCN and Knowledge Graph Embeddings

在本节我们主要了解以下内容：

GCN如何应用到异构图上

知识图谱的节点嵌入模型

1 同构图(Homogeneous)和异构图(Heterogeneous)

同构图定义：同构图中，node和edge种类只能有一种
异构图定义：异构图中，node和edge种类可以有多种
一个异构图定义为： $G=(V, E, R, T)$
- 其中 $V$ 为节点 $v_i\in V$
- 其中 $E$ 为连接关系三元组 $(v_i,r,v_j)\in E$
- 其中 $R$ 为连接关系种类 $r\in R$
- 其中 $T$ 为节点类型 $T(v_i)$

2 将GCN扩展到异构图上(RGCN)

2.1 想法

想法：将每种关系都单独设置一个 $W$ 参数进行训练

2.2 具体模型

Relational GCN(RGCN)具体模型：

\mathbf{h}_{v}^{(l+1)}=\sigma\left(\sum_{r \in R} \sum_{u \in N_{v}^{r}} \frac{1}{c_{v, r}} \mathbf{W}_{r}^{(l)} \mathbf{h}_{u}^{(l)}+\mathbf{W}_{0}^{(l)} \mathbf{h}_{v}^{(l)}\right)

每个GNN模型都分两步走：Message和Aggregation
- Message
  - 聚合邻居 $\mathbf{m}_{u, r}^{(l)}=\frac{1}{c_{v, r}} \mathbf{W}_{r}^{(l)} \mathbf{h}_{u}^{(l)}$
  - 加上本身的信息 $\mathbf{m}_{u, r}^{(l)}=\frac{1}{c_{v, r}} \mathbf{W}_{r}^{(l)} \mathbf{h}_{u}^{(l)}$
- Aggregation

\mathbf{h}_{v}^{(l+1)}=\sigma\left(\operatorname{Sum}\left(\left\{\mathbf{m}_{u, r}^{(l)}, u \in\{N(v)\} \cup\{v\}\right\}\right)\right)

2.3 存在的问题以及解决方法

存在问题：对罕见关系(关系较少)收敛较快，导致过拟合
解决方法（减少总体参数）：
- 块对角分解
- 基数分解

2.3.1 块对角分解

块对角分解：

W_{r}^{(l)}=\oplus_{b=1}^{B} Q_{b r}^{(l)}=\operatorname{diag}\left(Q_{1 r}^{(l)} \ldots \ldots Q_{B r}^{(l)}\right)

效果：使得 $W_{r}^{(l)}$ 的参数从 $d^{(l+1)}\times d^{(l)}$ 减少到 $B \times \frac{d^{(l+1)}}{B} \times \frac{d^{(l)}}{B}$

2.3.2 基数分解

基数分解：

W_{r}^{(l)}=\sum_{b=1}^{B} a_{r b}^{(l)} V_{b}^{(l)}

其中 $V_{b}^{(l)}$ 是对所有连接都共享的， $a_{r b}^{(l)}$ 是可学习的权重参数，每次训练只需要学习 $a_{r b}^{(l)}$ 和 $V_{b}^{(l)}$

2.4 下游任务

2.4.1 Node Classification

直接利用最后一层输出即可。

2.4.2 Link Prediction

Transductive在图上标记四种边
- Training message edges
- Training supervision edges
- Validation edges
- Test edges
设置映射函数 $f_{r}: \mathbb{R}^{d} \times \mathbb{R}^{d} \rightarrow \mathbb{R}$

训练阶段，计算损失时候，加入不存在的边，定义损失函数：

\ell=-\log \sigma\left(f_{r_{3}}\left(h_{E}, h_{A}\right)\right)-\log \left(1-\sigma\left(f_{r_{3}}\left(h_{E}, h_{B}\right)\right)\right)

3 知识图谱

本节讨论的目标是：知识图谱的补全
- 即给定(头节点，关系)，我们需要补全尾节点，形成三元组(头节点，关系，尾节点)，记为 $(h,r,t)$

3.1 几种关系

对称关系(Symmetric)：
- $r(h, t) \Rightarrow r(t, h)$ ，即 $(h,r,t)$ 同时有 $(t,r,h)$
反对称关系(Antisymmetric)：
- $r(h, t) \Rightarrow \neg r(t, h)$ ，即 $(h,r,t)$ 同时有 $(t,-r,h)$
反转关系(Inverse)
- $r_{2}(h, t) \Rightarrow r_{1}(t, h)$
传递关系(Composition):
- $r_{1}(x, y) \wedge r_{2}(y, z) \Rightarrow r_{3}(x, z) \quad \forall x, y, z$
一对多关系(1-to-N):
- $r\left(h, t_{1}\right), r\left(h, t_{2}\right), \ldots, r\left(h, t_{n}\right)$

3.2 TransE

Translation Intuition(想法)：对于所有的三元组 $(h,r,t)$ ，如果是真实存在的则有 $\mathbf{h}+\mathbf{r} \approx \mathbf{t}$ 否则 $\mathbf{h}+\mathbf{r} \neq \mathbf{t}$ ，得到模型如下：

f_{r}(h, t)=-\|\mathbf{h}+\mathbf{r}-\mathbf{t}\|

Note：TransE就是把关系和节点看成两个Embeddings矩阵，矩阵大小为 $n\times d$ 其中 $n$ 为节点个数， $d$ 为嵌入空间的维度，实际上就是一个Embeddings算法，和之前提过的"Shallow"Encoding想法差不多
缺点：无法应用到存在对称关系和一对多关系的图上

通用的模型框架如下
- 模型需要对三元组进行负采样
- 损失计算加入不存在的三元组，进行扰动

3.3 TransR

TransE无法应用到一对多和对称关系的图上，因此TransR基于该缺点进行修改。
具体想法是：把关系和节点放在不同的Embeddings空间上，关系和节点的计算利用另一个矩阵进行过渡。
具体模型为： $\mathbf{r} \in \mathbb{R}^{k} ,\mathbf{M}_{r} \in \mathbb{R}^{k \times d},\mathbf{h}\in\mathbb{R}^{d},\mathbf{t}\in\mathbb{R}^{d}$ ， $\mathbf{h}_{\perp}=\mathbf{M}_{r} \mathbf{h}, \mathbf{t}_{\perp}=\mathbf{M}_{r} \mathbf{t}$

f_{r}(h, t)=-\left\|\mathbf{h}_{\perp}+\mathbf{r}-\mathbf{t}_{\perp}\right\|

缺点：不支持传递关系

3.4 DistMult\ComplEx

TransR无法应用到传递关系的图上，因此DistMult基于该缺点进行修改。
具体想法是节点和关系都在同一个Embeddings空间，但计算方式改为点乘
具体模型为： $\mathbf{h}, \mathbf{r}, \mathbf{t} \in \mathbb{R}^{k}$

f_{r}(h, t)=<\mathbf{h}, \mathbf{r}, \mathbf{t}>=\sum_{i} \mathbf{h}_{i} \cdot \mathbf{r}_{i} \cdot \mathbf{t}_{i}

缺点：不支持存在反对称，传递，反转关系的图
ComplEx是基于DistMult的基础修改的，主要想法是将节点看为复平面上的点
具体模型： $\mathbf{h}, \mathbf{r}, \mathbf{t} \in \mathbb{C}^{k}$

f_{r}(h, t)=\operatorname{Re}\left(\sum_{i} \mathbf{h}_{i} \cdot \mathbf{r}_{i} \cdot \overline{\mathbf{t}}_{i}\right)

3.5 不同模型的优缺点对比

不同的模型对应不同的知识图谱可以得到不一样的效果

CS224W课程(图神经网络)笔记：010-RGCN and Knowledge Graph Embeddings

RGCN and Knowledge Graph Embeddings

1 同构图(Homogeneous)和异构图(Heterogeneous)

2 将GCN扩展到异构图上(RGCN)

2.1 想法

2.2 具体模型

2.3 存在的问题以及解决方法

2.3.1 块对角分解

2.3.2 基数分解

2.4 下游任务

2.4.1 Node Classification

2.4.2 Link Prediction

3 知识图谱

3.1 几种关系

3.2 TransE

3.3 TransR

3.4 DistMult\ComplEx

3.5 不同模型的优缺点对比