DySAT阅读笔记《DySAT: Deep Neural Representation Learning on Dyna

1、整体思路

离散型表示（snapshot sequence），动态链接预测任务。

GAT + Transformer：（multi-head）

第一层input $x_v$ 是节点id的onehot，后面层是embedding。

每个snapshot t的节点v都进行以下的操作：几乎和多头注意力的GAT一模一样

e_{uv} = LeakyRelu(A_{uv} a^T(W_s x_u||W_s x_v)) \\[2ex] \alpha_{uv} = \frac{exp(e_{uv})}{\sum_{k \in N(v)}exp(e_{kv})} \\[2ex] z_v = \sum_{u \in N(v)}\alpha_{uv}(W_s x_u) \\[2ex] h_v = (z_v^1 || z_v^2 || ... || z_v^{head})

问题	解释
为什么要进行structural neighbor？	为了让节点的embedding学习到图的局部结构；后面的时序建模没有显示利用图结构信息
为什么要用GAT来建模？为什么用多头？	本身图是带边权重的，不同邻居在聚合的时候也应该有不同的权重；多头的每一头都可以学习到一定的内容，多头可以削弱噪声的影响

2.1完成之后得到的结果 $h_v$ 加上position encoding后，按照time step进行concat后作为2.2的输入：

H_v = \begin{pmatrix} h_v^1 + p^1 \\ h_v^2 + p^2 \\ ...\\ h_v^T + p^T \\ \end{pmatrix}

之后开始Transformer的操作：

M_{ij} = 0 \quad if \quad i \le j \quad else -\infty \\[2ex] e_v^{ij} = \frac{((H_v W_q)(H_v W_k)^T)_{ij}}{\sqrt{d_k}} + M_{ij} \\[2ex] \beta_v^{ij} = \frac{exp(e_v^{ij})}{\sum_{k\in N(i)}exp(e_v^{ik})} \\[2ex] Z_v = \beta_v (H_v W_v) \\[2ex] Y_v = (Z_v^1||Z_v^2||...||Z_v^{head})

问题	解释
为什么要加上position encoding？	为了保留时间的先后顺序，因为后面建模的时候时间先后顺序会变得比较弱
为什么bias要加上M_{ij}？	时刻i的查询只能影响到时间在他后面的时刻j；当j在i前面，负无穷softmax后的beta就变成了0，不会产生影响
为什么要用Transformer结构建模？	t=1,2...T是典型的时序数据，通过Transformer来学习图的演变过程

动态连接预测任务：

转化为二分类任务：

loss function：

L = \sum_{t=1}^T\sum_{v \in V}(\sum_{u\in walk^t(v)}-\log\sigma(y_u^t \cdot y_v^t) - w_n\sum_{k \in P_n^t(v)}\log(1 - \sigma(y_k^t \cdot y_v^t)))

问题	解释
为什么loss function不用直接邻居而是用随机游走？	随机游走能使得同一个随机游走序列中的节点embedding变得相似，感觉是考虑到了多跳的相似性；直接邻居的话就是考虑一阶相似性多一些

2个通信图数据集：

2个评分图数据集：

问题	解释
Yelp和ML-10M都是异构图，为什么不用异构图方法RGAT这种？	不知道，可能同构图就已经能到达比较好的效果了吧？

静态方法：

动态方法：

因为每次都是根据t来预测t+1，所以每个time step都会有一个二分类的统计结果：

25%train，75%test。

single-step：

single-step：只评估未出现过的边

消融实验：