TGAT阅读笔记《INDUCTIVE REPRESENTATION LEARNING ON TEMPORAL GRAPH

1、问题和任务描述

问题：离散型DGNN的方法将全图划分为n个snapshot，这样可能会损失一些时间演化信息（信息丢失）；此外，离散型的DGNN无法进行inductive learning。

任务：不切分子图，使用基于time encoding的连续DGNN方法进行动态图的链接预测任务。

时间函数用来编码src节点和dst节点之间的相对时间差：

\phi(t, t_i) = (cos(w_1(t-t_i)+b_1), cos(w_2(t-t_i)+b_2), ..., cos(w_d(t-t_i)+b_d)) \in R^d

问题	解释
为什么可以用相对时间差来编码？	1）直觉上来说，相对时间要比绝对时间更重要；2）时间差具有平移不变性，便于发现周期性的规律3）本质上是要学习核函数 $K(t_1, t_2) = <\Phi(t_1), \Phi(t_2)> = \phi(t_1 - t_2)$
为什么要使用cos函数来进行编码？	cos函数具有周期性，可以反映时间差的周期性变化；不同w代表不同的频率，d维特征可以提取不同的频率

已知src节点和dst节点的timestamp，可以写成以下self-attention的形式：(包含节点特征，边特征和时间编码)

（把position encoding换成了time encoding）

Z(t) = [h_0(t)||e_{0, 0}||\phi(0), h_1(t)||e_{0, 1}||\phi(t-t_1), ..., h_n(t)||e_{0, n}||\phi(t-t_n)]

0代表src，1..n代表dst，

Q = (h_0(t)||e_{0, 0}||\phi(0)) * W_q \\[2ex] K = (h_1(t_1)||e_{0, 1}||\phi(t-t_1), ..., h_n(t_n)||e_{0, n}||\phi(t-t_n)) * W_k \\[2ex] V = (h_1(t_1)||e_{0, 1}||\phi(t-t_1), ..., h_n(t_n)||e_{0, n}||\phi(t-t_n)) * W_v \\[2ex]

计算attention和output，

h_0(t) = softmax(\frac{QK^T}{\sqrt{d_k}})V

然后和原始src的特征拼接过一个FFN，得到l+1层的输出， （多头机制）

h_0^{(l+1)}(t) = FFN(h_0^{head-1}(t)||h_0^{head-2}(t)||...||h_0^{head-k}(t)||x_0)

问题	解释
为什么不用GAT+Time encoding而是self-attention？	实验来说，self-attention效果更好

链接预测任务，基于负采样的二元交叉熵损失：

Loss = \sum_{j \in N(i)} -log(-\sigma(FFN(h_i(t_{ij})||h_j(t_{ij}))) - w_n \sum_{k \in P_n(i)} log(\sigma(FFN(h_i(t_{ij})||h_k(t_{ij})))

用的JODIE的两个开源数据集和一个沃尔玛的私有工业数据集。

Reddit和Wikipedia数据集描述见JODIE：github.com/srijankr/jo…
Industrial数据集来自沃尔玛
- customer-product交互图
- 70000 products，100000 customers，200万条边
- customer有label，表示用户的购买兴趣
- product给了一个预训练好的node feature
70%-15%-15%：train-valid-test