图神经网络与时间序列预测技术解析

39 阅读10分钟

图神经网络

图将数据表示为节点(通常描绘为圆形)和边(通常描绘为连接节点的线段)。图结构数据可以使机器学习更高效,因为图明确编码了机器学习模型原本必须从数据相关性中推断的关系。

图神经网络(GNNs)是处理图结构数据的强大工具。与大多数神经网络一样,GNNs生成嵌入,即输入数据的固定长度向量表示,这些表示对特定计算任务非常有用。就GNNs而言,嵌入捕获了与给定节点关联的对象信息和图结构信息。

在实际应用中(例如,表示哪些产品倾向于一起购买的图),某些节点可能未连接到任何其他节点,某些连接可能是从稀疏数据中得出的虚假推断。在《Cold Brew:用不完整或缺失邻域提取图节点表示》中,某中心科学家提出了一种处理边数据缺失或错误节点的方法。

在知识蒸馏的一种变体中,他们使用传统的GNN(要求每个输入节点连接到图的其余部分)来训练能够为连接节点生成嵌入的教师网络。然后他们训练一个标准的多层感知器——学生网络——来模仿教师的输出。与传统的GNN不同,学生网络不显式使用结构数据来生成嵌入,因此它也可以处理未连接的节点。该方法在几个基准数据集上展示出比现有图结构推断方法的显著改进。

跨学科领域,AI研究最近见证了自监督学习的流行,其中机器学习模型首先在“代理任务”上训练,该任务与目标任务相关但不完全相同,使用未标记或自动标记的数据。然后使用标记数据对目标任务进行模型微调。

对于GNNs,代理任务通常只教网络如何表示节点数据。但在《通过自监督多尺度邻域预测进行节点特征提取》中,某中心研究人员及其在伊利诺伊大学和 UCLA 的同事提出了一种代理任务,该任务也教GNN如何表示图结构信息。他们的方法具有高度可扩展性,适用于具有数亿个节点的图,在实验中,他们表明该方法在三个基准数据集上提高了GNN性能,其中一个提高了近30%。

该方法建立在某中心的XR-Transformer模型之上,被称为GIANT-XRT,已被广泛采用,并被斯坦福大学主办的多个公开开放图基准竞赛的领先团队使用。

第三篇论文《图关系域自适应》将图应用于域自适应问题,即优化机器学习模型以处理与训练数据分布不同的数据。传统的域自适应技术将所有目标域视为相同,但某中心研究人员及其在罗格斯大学和 MIT 的同事使用图来表示所有源域和目标域之间的关系。例如,相邻美国州的天气模式往往比彼此远离的州的天气模式更相似。在实验中,研究人员表明他们的方法在合成和真实世界数据集上都改进了现有的域自适应方法。

时间序列

时间序列预测对于需求预测至关重要,某中心用它来管理库存,它也对推荐有用,可以解释为延续产品(例如音乐或电影)选择序列。

在《通过循环强度建模桥接推荐和营销》中,某中心科学家将基于时间序列数据(购买历史)进行个性化推荐的现有机制适应于识别新产品目标受众的问题。

识别产品潜在客户的方法倾向于将客户视为购买决策的非时间集合,而某中心研究人员将问题框架化为优化产品对客户的相关性和客户的活动水平,或在给定时间跨度内购买任何产品的可能性。在实验中,这提高了预测模型在几个数据集上的准确性。

开发基于时间序列数据进行预测的机器学习模型的一个障碍是训练样本的可用性。在《PSA-GAN:用于合成时间序列的渐进式自注意力GAN》中,某中心研究人员提出了一种使用生成对抗网络(GANs)人工生成时间序列训练数据的方法。

GANs让生成器(生成合成数据)与判别器(尝试区分合成数据与真实数据)相互对抗。两者一起训练,各自提高对方的性能。

某中心研究人员展示了如何通过逐步增长生成器和判别器(或向其添加网络层)来合成合理的时间序列数据。这使得生成器能够首先学习时间序列整体应具有的一般特征,然后学习如何生成展现这些特征的序列。

数据增强

除了关于合成时间序列的论文外,某中心在ICLR的另一篇论文《深度自动增强》也专注于数据增强。

通过将真实数据经过一系列变换来增强用于训练机器学习模型的数据集已成为标准做法。例如,计算机视觉任务的训练图像可能会被翻转、拉伸、旋转或裁剪,或者其颜色或对比度可能会被修改。通常,前几个变换是根据模型训练和重新训练的实验自动选择的,然后领域专家添加一些额外的变换,试图使修改后的数据看起来像真实数据。

在《深度自动增强》中,前某中心高级应用科学家 Zhi Zhang 及其在密歇根州立大学的同事提出了一种完全自动化构建数据增强流水线的方法。目标是不断添加变换,将合成数据的特征分布导向真实数据的特征分布。为此,研究人员使用梯度匹配,或识别那些对模型参数的顺序更新看起来像真实数据的训练数据。在测试中,这种方法在四组真实数据上优于其他10种数据增强技术。

自然语言处理

许多自然语言处理任务涉及句子的成对比较。交叉编码器,将句子对相互映射,产生最准确的比较,但它们的计算强度大,因为它们需要为每个句子对计算新的映射。此外,将预训练语言模型转换为交叉编码器需要使用标记数据对其进行微调,而获取标记数据资源密集。

另一方面,双编码器将句子嵌入到共同的表示空间中,并测量它们之间的距离。这种方法高效但准确性较低。

在《Trans-encoder:通过自蒸馏和互蒸馏进行无监督句子对建模》中,某中心研究人员与一位前实习生一起提出了一种模型,该模型以完全无监督的方式(即没有标记样本)进行训练,并捕获了两种方法的优点。

研究人员从一个预训练语言模型开始,使用双编码以无监督方式对其进行微调,然后使用微调后的模型为交叉编码生成训练目标。然后他们使用交叉编码模型的输出来微调双编码器,在两种方法之间来回迭代,直到训练收敛。在实验中,他们的模型在几个基准任务上优于多个最先进的无监督句子编码器,比先前最佳性能模型的改进高达5%。

数据集优化

从数据集中剔除错误、选择新的训练样本来增强数据集,以及确定如何加权数据集中的数据以更好地匹配目标分布,都是数据集优化的例子。然而,评估单个训练样本对模型准确性的贡献是困难的:在有和没有每个样本的数据集上重新训练模型几乎不切实际。

在《DIVA:学习任务的数据集导数》中,某中心研究人员展示了如何计算数据集导数:一个可用于评估给定训练样本相对于特定神经网络模型效用的函数。在训练期间,模型不仅学习网络参数的权重,还学习单个训练样本的权重。研究人员表明,使用线性化技术,他们可以推导出数据集导数的闭式方程,从而无需重新训练网络即可评估给定训练样本的效用。

局限性

“机器学习最终基于统计依赖性,” Bernhard Schölkopf 最近告诉某中心科学。“通常,如果我们在表面工作,仅仅从这些依赖性中学习就足够了。但事实证明,只有在我们处于没有任何变化的设置中时,这才足够。”

来自因果表示学习团队的两篇ICLR论文探讨了学习统计依赖性不足的情境。《视觉表示学习在同一领域内不能强泛化》描述了图像数据集的实验,其中每个图像由一组变量的特定值定义——例如,不同形状的不同大小和颜色,或者微笑或不微笑且头发颜色或年龄不同的面孔。

研究人员测试了17个机器学习模型,并表明,如果某些变量组合或特定变量值被排除在训练数据之外,所有17个模型在测试数据中识别它们都有困难。例如,一个训练用来识别小心脏和大正方形的模型在识别大心脏和小正方形方面有困难。这表明我们需要修订训练技术或模型设计,以确保机器学习系统真正在学习它们应该学习的内容。

类似地,在《你大多独自行走:分析轨迹预测中的特征归因》中,团队成员考虑了在移动物体与其他物体交互时预测其轨迹的问题,这是自动驾驶汽车和其他AI系统的基本能力。例如,如果一个人正在街上行走,一个球弹到她的路径上,知道这个人可能会偏离她的轨迹去捡球可能很有用。

适应博弈论中的沙普利值概念(能够分离不同变量对结果的贡献),研究人员检查了在交互上下文中预测轨迹的最佳性能近期模型,并表明,在大多数情况下,它们的预测基于过去的轨迹;它们很少关注交互的影响。

一个例外是在篮球视频数据集上训练的模型,那里所有球员的运动都是持续协调的。在那里,现有模型确实学会了识别交互的影响。这表明精心策划训练数据可以使现有模型在预测轨迹时考虑交互。