基于变分图自编码器与扩散模型的图异常检测数据合成方法

3 阅读5分钟

会议

WSDM 2024

相关论文

用于异常检测的图扩散模型

异常检测旨在识别显著偏离既定规范的数据,这些数据可能预示着有害活动。对于基于图的数据而言,这是一项尤为严峻的挑战,因为异常检测不仅基于数据值,还依赖于图内的拓扑关系。由于异常通常很罕见,因此很难找到足够的样本来训练机器学习模型,以处理图异常检测中的复杂性。

在上一周于网络搜索与数据挖掘国际会议(WSDM)上展示的论文中,我们描述了一种为基于图的异常检测器合成训练数据的新方法。该方法结合了变分图自编码器(学习可用于生成随机样本的概率分布)与扩散模型(学习将随机噪声转换为可理解的输出)。

在测试中,我们将通过该方法生成的合成数据训练的异常检测器,与使用五种先前数据增强方法训练的检测器进行了比较。我们在五个数据集上,使用三种不同的评估指标进行了对比,共计15个实验。在这些实验中,我们的模型在13个实验中表现最佳;另外两个实验则由其他模型成为最佳表现者。

基于图的建模

图是表示数据通过网络(无论是计算机网络、通信网络,还是如电商网站买卖双方之间的互动网络)流动的自然方式。因此,图中的异常检测有助于检测服务器攻击、垃圾邮件、欺诈和其他类型的滥用行为。

近年来,图分析与大多数领域一样,受益于深度学习。图神经网络迭代地构建图的表示:首先,它们嵌入图中节点对应的数据;然后,生成结合节点嵌入与相邻节点嵌入的嵌入向量;接着,生成结合这些更高级别嵌入的嵌入向量;如此迭代,直到某个固定的终止点。最终,模型生成的嵌入向量能够捕获关于图内整个邻域的信息。(在我们的实验中,我们确定了四跳邻域。)

图的复杂性——需要同时表示拓扑和数据——意味着用于分析它们的模型需要额外的训练数据,而这些数据在实际应用中可能很稀缺。因此,需要合成训练数据。

潜在空间扩散

我们数据合成模型的核心是一个变分图自编码器。“自编码器”意味着它被训练为输出与输入相同的数据。然而,在输入层和输出层之间,存在一个瓶颈层,迫使网络学习输入的压缩表示。

“变分”意味着模型的训练目标不仅鼓励它忠实地再现输入,还鼓励它学习其分布遵循某种预设形状(例如高斯分布)的压缩表示。这意味着在数据合成阶段,来自该分布的随机样本很可能产生看起来真实的数据。

自编码器的压缩表示定义了一个表示空间,我们正是在这个空间中应用扩散模型。自编码器生成输入图的嵌入向量,我们的模型迭代地向其添加噪声。然后,一个去噪器逆向执行相同的过程,迭代地对嵌入向量进行去噪。

这实际上是对合成数据看起来像真实数据的二次校验。如果自编码器学习的分布未能完全捕获异常数据的特征,那么添加噪声可以“模糊掉”那些被错误表征的特征。而去噪步骤则用与训练数据更一致的特征来填补这些被模糊掉的特征。

数据合成

我们的方法还有另外几个旨在提高合成数据质量的改进点。其中之一是,在扩散过程之后,重构的图嵌入会传递给不止一个,而是多个解码器,每个解码器专门处理图的不同方面。

至少,有两个解码器,一个用于节点特征,一个用于图结构。如果涉及的图包含时间序列数据,我们会使用第三个解码器为节点分配时间戳。

另一个改进点是,在训练过程中,我们将图节点标记为异常或正常,然后在正例和负例上都进行训练。这有助于模型学习两者之间的区别。但这同时也意味着模型学习的是一个以类标签为条件的分布,这样在合成过程中,我们可以引导它生成那些会产生包含异常节点的图样本。

最后,我们的模型能够生成异构图(即具有不同节点和边类型的图)这一点非常重要。例如,在电子商务场景中,节点可能代表买家、卖家和产品页面,而边可能代表购买、产品浏览、评论等。

因此,作为我们自编码器中的编码器,我们使用了一个异构图变换器,这是一个经过多项修改以处理异构图的模块,包括针对不同节点或边类型的独立注意力机制。

综上所述,我们模型的这些特性使其能够超越之前的模型。在论文中,我们报告了一项消融研究,表明上述每个特性都对我们模型的成功有显著贡献。


研究领域

机器学习

标签

图神经网络(GNNs)、网络真实性与信任、数据集开发、扩散模型

会议

WSDM 2024

相关论文

用于异常检测的图扩散模型

关于作者

Huijun (Lona) Yu 是某机构客户信任部门的应用科学家。FINISHED