解读:时空同步图卷积网络:一种时空网络数据预测的新框架(附项目源码)...

510 阅读12分钟

写在前面

下面这篇文章的内容主要是来自发表于AAAI 2020 的一篇文章《Spatial-Temporal Synchronous Graph Convolutional Networks: A New Framework for Spatial-Temporal Network Data Forecasting 》。这篇文章提出了一种新的时空网络数据预测框架,它可以有效捕捉不同区域的时空相关性。最后模型被应用于交通数据中。实验验证了提出的模型具有较好的预测效果。项目代码链接以 原论文在文末进行获取。****

1

摘要

时空网络数据预测在交通管理和城市规划的应用中具有重要意义。然而,潜在的复杂时空相关性和异质性使这个问题具有挑战性。现有的方法通常使用单独的分量来获取时空相关性,而忽略了时空数据的异质性。本文提出了一种新的时空同步图卷积网络(STSGCN)模型,用于时空网络数据预测。通过精心设计的时空同步建模机制,该模型能够有效地捕捉复杂的局域时空相关性。同时,在模型中设计了多个不同时间段的模块,以有效地捕获局部时空图中的异质性。最后,在四个真实数据集上进行了广泛的实验,证明了文中提出的方法达到了最先进的性能,并始终优于其他baselines。

时空网络数据预测是时空数据挖掘中的一个基础性研究问题。时空网络是一种典型的数据结构,能够描述交通网络、移动基站网络、城市供水系统等实际应用中的大量数据。对时空网络数据的准确预测可以显著提高这些应用的服务质量。随着图深度学习的发展,图卷积网络及其变体等功能强大的方法被广泛应用于这些时空网络数据预测任务中,并取得了良好的效果。然而,目前还缺乏有效的方法来对时空上的相关性和异质性进行建模。 在这篇文章中,作者着重设计一个同步捕捉复杂时空相关性并考虑异质性的模型,以提高时空网络数据预测的准确性。

以下图所示的时空网络为例,该网络中存在三种不同的影响。首先,时空图中的每个节点在同一时间步长可以直接影响其相邻节点,这种影响来源于实际的空间依赖关系。其次,由于时间序列的时间相关性,每个节点也可以直接影响下一个时间步长的自身。最后,由于时空相关性的同步,每个节点甚至可以直接影响下一个时间步的相邻节点。三种不同影响存在的原因是信息在时空网络中的传播同时发生在时空两个维度上。由于节点之间的空间距离和时间序列的时间范围的限制,这些 复杂的时空相关性通常是局域的。我们把这些复杂的影响称为局部的时空相关性。对这种关联进行建模对于时空网络数据预测是至关重要的。之前的研究如DCRNN、STGCN和ASTGCN分别使用两个单独的组件来捕获时间和空间的依赖性,但是这些方面只捕捉上面的前两种影响,即空间相关性和时间相关性。它们将空间表示输入到时态建模模块,以间接捕获第三种影响。但作者认为,如果能同时捕获这些复杂的局部性时空相关性,将对时空数据预测非常有效,因为这种建模方法揭示了时空网络数据生成的基本方式。

此外,时空网络数据通常在空间和时间维度上表现出异质性。例如,在全市的道路网络中,住宅和商业区的交通监测站所记录的观测数据在不同时间往往表现出不同的模式。然而,以往的许多研究使用了不同时间段的共享模块,无法有效地解决时空网络的异质性问题。

为了捕获复杂的局域时空相关性和时空数据的异质性,作者提出了一种时空同步图卷积网络(STSGCN)。与以往的许多工作不同,STSGCN模型可以同时直接捕获局部的时空相关性,而不是使用不同类型的深度神经网络分别对空间相关性和时间相关性建模。具体地说,通过一种构造的局部时空图,它将相邻时间步长的单个空间图连接成一个图。然后,构造了一个时空同步图卷积模块(STSGCM)来捕获这些局域时空图中复杂的局域时空相关性。同时,为了捕获远程时空网络数据的异构性,作者设计了时空同步图卷积层(spatial-temporal Graph Convolutional Layer, STSGCL),在不同的时间段部署多个单独的STSGCMs。最后,我们堆叠多个STSGCLs,以聚集长期的时空相关性和异质性,以进行预测。

2

模型介绍

文中提出的模型的整体架构如下所示。其中主要包括了多个时空图卷积层(STSGCLs)以及一个输入层和一个输出层。它使用一个输入层将输入特征转换为一个更高维度的空间。然后叠加多组STSGCLs,获取时空网络序列中局部的时空相关性和异质性。最后,它使用一个多模块输出层来映射最后的结果到输出空间。因此,整个时空网络数据的预测问题可以转换为:通过学习得到一个映射函数   ,它可以将图矩阵序列   转换为预测目标序列   ,下面针对整个网络框架进行介绍。

构造局部时空图\

为了直观捕获节点对当前以及相邻时刻的节点的影响,文章将每个当前时刻的节点与下一时刻以及前一时刻的节点进行相连,从而获得时空关系图。以   表示一个空间图的邻接矩阵,则捕获三个连续时刻的时空图的邻接矩阵则表示为   。即如下图所示:

时空嵌入\

然而,再将不同时间步长的节点连接到一个图中时,会模糊了每个节点的时间属性。换句话说,这个局部的时空图将不同时间步的节点放在同一个环境中,并没有区分它们。文中受ConvS2S(Gehring et al. 2017)的启发,将位置嵌入(position embedding)引入到时空网络序列中,使模型能够考虑时空信息,增强了对时空相关性建模的能力。具体方式是:对于时空网络序列   ,作者定义了两个可学习的嵌入矩阵   和   ,分别用于学习时间和空间的关系。最后,通过broadcast操作将学习得到的的嵌入矩阵加入到原序列中作为新的特征:

时空同步图卷积模块\

作者构建了一个时空同步图卷积模块(STSGCM)来捕获局部的时空相关性。其中,STSGCM由一组图卷积操作组成。图卷积运算可以将每个节点的特征和它的邻居聚集起来。作者在顶点域中定义了一种图卷积运算,用于聚合时空网络中的局部时空特征。图卷积运算的输入是局部时空图的图信号矩阵。在这个的图卷积操作中,每个节点在相邻的时间步长上聚集了当前节点和邻居的特征。聚合函数是一个线性组合,其权值等于节点与其邻居之间的边的权值。然后通过一个具有激活功能的全连接层,将节点的特征转换为一个新的空间。这个图的卷积操作可以写成如下形式:

其中的   表示激活函数,常用的激活函数有GLU和ReLU,如果选择GLU作为激活函数,这个卷积层的操作可以表示为下面的形式:

随后,多个图卷积层被堆叠起来用于扩展汇聚区域,增加来自图卷积操作的接收域,以捕获局部的时空关联。其中,这里作者选择了JK-net (Xu et al. 2018)作为STSGCM的基本结构,并设计了一个新的聚合层来过滤无用的信息。

其中聚合操作主要包括两个部分,即聚合裁剪。其中,聚合操作了选择了max-pooling,它对STSGCM中所有图卷积的输出应用wise-element操作,其中max-pooling操作需要所有输出具有相同的大小,因此一个模块中用于图形卷积操作的内核数量应该相等。最大聚集操作可表示为:\

裁剪操作删除了前一个和下一个时间步骤的所有节点的特征,只保留中间时刻的节点。这样做的原因是,图卷积操作已经聚合了来自前一个和下一个时间步骤的信息。尽管裁剪了两个时间步长,但每个节点都包含了局部的时空关联。如果将多个STSGCM叠加在一起,同时保留所有相邻时间步长的特征,模型中会存在大量冗余信息,严重影响模型的性能。

因此整个过程如下图所示:

时空同步图卷积层\

为了获取整个网络序列的长程时空相关性,文中使用滑动窗口来截取不同的时间段。由于时空数据的异构性,使用多个STSGCMs对不同时期进行建模比为所有时期共享一个模型更好。多个STSGCMs允许每个模块都专注于建模本地化图中的本地化时空相关性。文中部署一组STSGCMs作为时空同步图卷积层(STSGCL),提取长程时空特征,如下图所示。

因此,通过叠加多个STSGCLs可以构建一个能够捕获复杂时空相关性和时空异质性的层次模型。最后,经过多次时空同步图卷积运算后,每个节点都包含以自身为中心的局部时空相关信息。\

其他组成模块\

除了上面的主要部分之外,还有其他一些模块需要介绍,它们被用来增强模型的表达能力。

mask矩阵:每个节点对它的邻居有不同的影响大小。如果邻接矩阵仅包含0和1,则聚集可能受到限制。并且如果局部时空图中的两个节点连接在一起,即使在某一时间段内没有相关性,它们的特征也会被聚合。因此,文中在STSGCN中增加了一个可学习的mask矩阵来调整聚合权值,使聚合更加合理。

输入层:作者在网络顶部添加一个全连接层,将输入转换为高维空间,提高了网络的表示能力

输出层:作者设计了一个输出层,将最后一个STSGCL的输出转换为预期的预测。

损失函数:损失函数选择Huber loss。Huber损失对异常值的敏感性小于平方误差损失,它的形式如下所示:

3

实验验证

在实验部分,文中提出的模型与常见的baseline模型进行了预测效果的对比。数据集用到了4个公路交通数据集上的性能。这些数据是从加州交通绩效测量系统(PeMS)收集的。

另外,数据以6:2:2的比例被划分为训练集、验证集和测试集。然后使用一个小时的历史数据来预测下一个小时的数据,这意味着使用过去的12个连续时间步长来预测未来的12个连续时间步长。所有实验都重复十次。另外,作者使用MXNet(Chen et al. 2015)用于实现STSGCN模型。超参数由模型在验证数据集上的性能决定。这4个数据集的最佳模型由4个STSGCLs组成,每个STSGCM包含3个图卷积操作,分别带有64、64、64个滤波器。

实验效果如下,可以看出提出的模型实现了最好的预测效果。

4

总结

在这篇文章中,作者提出了一种既能有效地捕捉局域时空相关性,又能考虑时空数据中异质性的模型。在四个真实数据集上的大量实验表明,提出的模型优于现有的模型。除此之外,这个模型是一个通用的时空网络数据的预测框架,也可以应用于其他相关的研究领域中。

参考文献:\

Song C ,  Lin Y ,  Guo S , et al. Spatial-Temporal Synchronous Graph Convolutional Networks: A New Framework for Spatial-Temporal Network Data Forecasting[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(1):914-921.

论文项目代码链接:

github.com/Davidham3/S….

关注《人工智能量化实验室》公众号,后台发送060可获取原论文。

了解更多人工智能与
量化金融知识

<-请扫码关注

让我知道你在看