用于联合人群流动和转移预测的时空图注意嵌入:基于 Wi-Fi 的移动案例研究

122 阅读51分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第22天,点击查看活动详情

在这里插入图片描述

人群流动性预测,特别是预测不同地点的流动和过渡,对于以大型聚集为特征的宽敞环境中的人群分析和管理至关重要。我们提出了 GAEFT,这是一种基于多任务图注意力神经网络的新型人群流动分析系统,用于预测人群流动(流入/流出)和转换。具体来说,我们利用我们的大学信息技术服务提供的集体和净化的校园 Wi-Fi 关联数据,并进行相关的案例研究。我们的综合数据分析揭示了稀疏性和偏度的重要挑战,以及人群流动数据中复杂的时空变化。因此,我们设计了一种新的时空聚类方法来对具有相似转换特征的 Wi-Fi 接入点 (AP) 进行分组,并为模型输入获得更规则的移动性特征。然后,我们提出了一种基于注意力的图嵌入设计来捕捉人群流动和转换之间的相关性,并通过多任务公式共同预测 AP 级别的流动以及跨建筑物和集群的转换。使用 2020-2021 学年收集的超过 2800 万条关联记录的广泛实验研究验证了 GAEFT 在预测动态和复杂人群流动性方面的出色准确性。

CCS 概念: • 信息系统→ 移动信息处理系统。 附加关键词和短语:图注意力、Wi-Fi 关联数据、人群流动、过渡、预测。

ACM 参考格式: 西洋、何遂宁、王冰和马汉·塔巴塔巴耶。 2021. 联合人群流动和过渡预测的时空图注意力嵌入:基于 Wi-Fi 的移动案例研究。Proc.ACM Interact.Mob.Wearable Ubiquitous Technol.5,4,第 187 条(2021 年 12 月),24 页 . doi.org/10.1145/349…

1 简介

人群流动性分析对于以大量人群聚集为特征的宽敞城市环境变得越来越重要。 到 2022 年,全球人群流动分析市场预计将达到 15.31 亿美元。准确和主动的人群分析可以实现各种无处不在的计算应用,例如事件监控 [21]、城市规划 [46]、流行病和社会分析 [28]、 推荐和随后的商业促销[45]。 特别是,在 COVID-19 [30] 大流行期间,人群流动分析系统可以监控和控制许多宽敞场所的人群分布,从而帮助减轻流行病的传播。 在这里插入图片描述

在本文中,我们开发了一个预测人群流动分析系统来预测目标站点不同位置的人群流动。如图 1 所示,我们关注两种重要的人群流动模式,人群转移(从一个位置到另一个位置的人数)和人群流动(进入或离开一个位置的人数,称为流入/流出)。该预测系统可以帮助相关利益相关者(例如人群管理和急诊部门)处理潜在的拥挤区域 [1, 2] 并提高他们对潜在异常人群分布的准备 [4, 47],例如提供事件警报、部署紧急情况应对措施,并加强社交距离。使用移动应用程序或基于 Web 的服务,这些警报以及紧急情况和社交距离信息可以快速传达给公众。

作为案例研究,我们使用从校园网络收集的 Wi-Fi 关联数据为我们的大学校园开发了预测性人群流动分析系统。我们注意到,Wi-Fi 接入点 (AP) 已广泛部署在我们的校园(与许多其他大学一样),为学生、教职员工提供出色的互联网连接服务。当用户连接到 Wi-Fi 网络时,他们的位置可以通过与他们的移动设备关联的 AP 的位置来近似(因为设备与附近的 AP 关联以访问 Internet)。因此,Wi-Fi 关联数据可用于实时识别终端用户的大致位置。这种感知人群的方法具有以下两个优点。首先,获取 Wi-Fi 关联是高度自动化且非侵入性的——它利用校园网络基础设施,无需在最终用户设备上下载应用程序。其次,由于分析中不包含敏感信息(如用户 ID、MAC 地址或 IP 地址),因此我们使用被动 Wi-Fi 关联数据(通常由大学网络服务收集)的方法相比隐私侵犯要小得多用户 ID 卡访问记录、基于摄像头的 [11] 和其他基于主动 Wi-Fi 探测的方法 [33]。通过与我们的大学信息技术服务 (UITS) 合作,我们开发的人群流动分析系统将协助大学校园管理部门及时响应未来的校园重新开放和人群聚集。

对 Wi-Fi 数据进行全面的人群流动性分析(第 2.2 节),我们发现数据稀疏性和偏度是收集到的人群流动性数据中的一个主要问题,即大部分人群流动性数据(进出流量和转换)记录在几个位置和几个时间段。这对人群流动分析系统的实际部署提出了两个主要挑战。

在这里插入图片描述

  1. 时空复杂性挑战:由于最终用户复杂的日常生活和偏好,人群流动性的稀疏性和偏度在不同的校园位置和时间段之间存在时空差异。以我们的校园为例,我们在图 2 中显示了流入的分布,即到达这些标记位置(校园建筑)的人数。我们可以看到,大部分白天活动(图 2a)集中在校园中心(由于主要的学术和餐饮活动),而在晚上,大部分人流集中在校园外围区域大多数学生宿舍所在的地方(图2b)。从图 3 中可以观察到类似的稀疏性,从中我们可以看到白天(主要朝向图 3a 中的校园中心)和夜间(主要朝向外围设备)从校园中心到其他校园位置的高度倾斜过渡图 3b) 中的校园。这种跨空间和时间的稀疏变化使得准确的建模和预测变得困难。
  2. 模型可学习性挑战:人群流动性分析的一个更紧迫的问题是模型可学习性。 复杂人群流动性的传统深度学习预测 [24、43、48] 通常需要人群流动性数据中可用的密集特征,然而,考虑到上述稀疏和倾斜的数据,这可能并不总是有效的。 此外,细粒度的人群流动分析通常需要高粒度的空间和时间离散化(例如,预测不同 AP 下的每小时人群流量)。 它通常会导致输入特征更加稀疏和倾斜,这使得传统的深度学习模型 [24、27、34、42、43、48] 难以有效地学习和预测。

为了应对这些挑战,我们提出了 GAEFT,这是一种基于 Graph Attention Embedding 神经网络和联合人群 Flow-Transition 学习的新型人群分析系统。 GAEFT旨在联合预测人群流动的两个方面:(i)人群转移,即跨校园建筑和区域的转移,以及(ii)人群流动,即基于关联的到达和离开的数量 以及与 Wi-Fi AP 的关联记录。 我们的研究做出了以下三个主要贡献:

  1. 全面的人群流动和过渡数据分析。 我们对校园内的人群流动和转移进行了综合研究,这促使采用一种新颖的时空聚类方法来处理数据稀疏性。 具体来说,我们设计了一种基于建筑物间空间接近度和时间过渡连通性的新型亲和传播聚类方法,并将不同建筑物中的 AP 分组。 由此产生的更规则的移动模式作为模型输入之一,有助于减轻数据稀疏性并增强 GAEFT 的模型可学习性。
  2. 一种具有图注意力嵌入的新型多任务学习框架。 为了进一步处理人群流动数据中的稀疏性,我们提出了一种新颖的图注意力嵌入设计,该设计结合了建筑物邻域(集群)的时空相关性,以增强 GAEFT 在人群流动和过渡方面的可学习性。 为了进一步处理转换矩阵的数据稀疏性问题,我们为流入和流出生成了两个单独的嵌入,并利用两个单独的图嵌入学习模块将它们集成以进行最终的转换预测。 在每个图嵌入学习模块中,我们设计了一种新颖的时空多头注意力机制,该机制可以捕获并区分人群流动和转换中时空相关性的重要性。 然后,我们共同预测多任务学习范式中的转换和流动,这已被证明可以提高预测准确性。
  3. 广泛的现实世界实验研究。 与我们的大学信息技术服务 (UITS) 合作,我们对 2020-2021 学年 (AY) 期间产生的现实世界人群转移和流动进行了广泛的实验研究。 广泛的实验评估结果表明,与最先进的基线模型相比,我们提出的模型在预测人群流动(AP 级别)和过渡(跨建筑物和集群)方面实现了更高的准确性 [24,27,34, 42、43、48]。

系统概述:我们在图 4 中说明了 GAEFT 的信息流,它由三个阶段组成。 在这里插入图片描述

a) 在人群移动处理阶段,我们收集 Wi-Fi 关联数据,并在 Wi-Fi AP 覆盖的不同位置找到人群流动(基于关联和分离的流入/流出)。 使用校园地图,我们根据它们在地理位置方面的接近程度以及在人群转移方面的连通性将建筑物及其 AP 分组到集群中。 我们还收集和处理外部因素(例如,天气状况和工作日/周末)以协助预测流动性。 综上所述,我们形成了建筑物级流、集群级流和外部因素向量作为 GAEFT 的输入。

b) 在人群移动学习阶段,GAEFT 将目标站点(例如校园)视为以建筑物或集群为节点的网络,并将节点之间的人群转移视为边缘。 基于由此形成的网络图,GAEFT 接收建筑物/集群级别的流,并使用建筑物和集群图聚合器提取建筑物/集群的空间特征。 使用分配融合将提取的集群级流入/流出嵌入与提取的建筑物级流入/流出嵌入融合。 我们通过时空注意力进一步增强了对融合的建筑物级流入/流出嵌入的时空特征的提取。 然后,我们将建筑物级别的流入/流出嵌入与外部因素以及历史转换(在相同的历史时间段内)结合起来。

通过多任务学习机制,输出将同时映射到建筑物和集群以及 AP 级流的转换。 这样,我们训练 GAEFT 来学习和预测稀疏的人群流动性数据。 c) 在人群流动预测阶段,给定经过训练的 GAEFT 模型,我们预测人群管理部门和相关利益相关者的过渡和流动。 例如,我们可以在移动地图服务上可视化潜在的拥堵和拥挤的地点,并帮助通知管理部门和人群以进行潜在的响应和准备。 我们的细粒度 AP 级预测还将在不同校园位置实现局部人群控制 [39]。

社会影响:我们的校园人群流动性研究对于提供预测性人群流动和过渡建模和管理的指导是及时且重要的。自 COVID-19 爆发以来,截至 2021 年 7 月,美国大学校园已报告超过 700,000 例病例。尤其是鉴于 SARS-COV2 变体 [30] 的威胁日益严重,北美和欧洲的许多大学校园正面临着前所未有的威胁即将到来的 2021 年秋季重新开放所面临的挑战。尽管我们在这里使用 Wi-Fi 关联数据进行原型研究,但我们研究的见解和模型可以扩展到其他宽敞的城市环境(例如购物中心)以及其他现有或新兴的人群感知模式,例如利用蜂窝信号[35] 和摄像机跟踪 [11]。

我们将本文的其余部分组织如下。我们首先概述使​​用的数据集,定义重要概念,并在第 2 节中介绍我们的数据分析和动机。然后,我们在 Sec 中介绍了 GAEFT 的详细核心公式。 3和第4节中的模型集成和多任务学习。之后,我们在第 5 节介绍了 GAEFT 的实验评估。然后我们在第 6 节回顾相关工作,在第 7 节讨论 GAEFT 的部署,最后在第 8 节结束。

2 系统概述、数据集和重要概念

我们首先在 Sec.2.1 中介绍 Wi-Fi 关联数据集和 GAEFT 中考虑的其他外部因素,然后在 Sec.2.2 中定义重要概念和动机。

2.1 数据集概述

我们与大学信息技术服务部门合作,从校园网络收集 Wi-Fi 关联数据。总而言之,我们在 2020-10-11 至 2020-11-10(秋季)和 2021-02-02 至 2021-04-10(春季)期间从 1,257 个 AP 中总共收集了 28,477,044 条 Wi-Fi 关联记录。具体来说,我们使用一个服务器,该服务器使用标准网络协议 [9] 定期(每小时)从所有校园 AP 中检索 AP 关联和分离事件。每个 Wi-Fi 关联记录包含以下关键属性:用户 ID(加密和净化)、关联时间戳和持续时间,以及关联的 AP 的 MAC 地址。表 1 显示了 Wi-Fi 关联记录的示例。在我们为隐私保护进行数据分析之前,用户 ID 已被加密和随机化。一个用户可能有多个移动设备,例如智能手机和笔记本电脑,这些设备可能与同一 ID 下的 AP 相关联。通过将多个设备映射到单个用户,我们可以区分人群中的用户。映射和聚合后立即丢弃 ID。根据映射的 ID,我们总共确定了 22,298 个用户,他们在我们收集的数据中进行了关联活动。通过检查用户访问过的两座建筑物中两个连续 AP 的关联记录,我们推断出不同校园建筑物之间的集体(聚合)转换。 在这里插入图片描述

此外,我们还考虑了影响人群流动性的其他外部因素,例如天气条件和工作日时间。 具体来说,我们从开放数据源中收集温度和每小时降水量。 我们收集了 2020-10 至 2021-05 期间的 7,655 条天气状况记录(包括温度和降水)。 然后我们将每小时温度(从 0 到 85° F)、每小时降水量(从 0 到 0.29 英寸)和是否是工作日的指标(表示为 1)(表示为 0)连接起来,形成外部 因子向量输入,表示为 e,用于 GAEFT。 例如,对于某个时间间隔,我们有 e = [10°F, 0.29 英寸, 1]。 然后我们使用最小-最大归一化对 e 中的每个维度进行归一化。

2.2 重要概念和动机

我们定义了以下重要概念并激发了我们的数据驱动模型设计。

时间离散化。 通过集体 Wi-Fi 关联和解除关联记录,我们能够捕获具有 Wi-Fi AP 覆盖范围的不同校园位置的移动性(转换和流)。 为了便于对转换/流进行建模,我们首先将时域离散为相等持续时间的时隙或间隔(在我们的研究中为 1 小时),每个时隙由 𝑘 索引。 在我们的数据分析中,我们观察到用户的转换时间可能涵盖多个时间间隔。 例如,用户在上午 11 点 55 分从建筑物中的 AP 断开连接,然后行驶了 15 分钟,并在下午 12 点 10 分连接到另一栋建筑物中的 AP。 因此,我们研究了每两个连续间隔的转换和流动,如下所述。

人群流动。 鉴于校园 Wi-Fi AP 的 Wi-Fi 关联和解关联,我们首先定义 GAEFT 公式的人群流动。 具体来说,基于加密的用户 ID,我们映射所有 N(A)N^{(\mathrm{A})} Wi-Fi AP(“A”代表 AP)上的 Wi-Fi 关联和解除关联 对时间间隔 k 的用户到达(流入)和离开(流出)的数量,即 AP\underline{\mathrm{AP}} 级人群流动 Fk(A)RN(A)×2\mathbf{F}_{k}^{(\mathrm {A})} \in \mathbb{R}^{N^{(\mathrm{A})} \times 2} 。 请注意,我们让 Fk(A)[:,1]\mathbf{F}_{k}^{(\mathrm{A})}[:, 1] 处的元素为 AP 级流入,而 Fk(A)[:,2]\mathrm{F}_{k}^{(\mathrm{A})}[:, 2] 处的元素 是 AP 级别的流出。 基于 AP 级人流,我们可以聚合校园内同一建筑物内的 AP,得到所有 N^{(B)} 个建筑物(“B”为建筑物)的建筑物级人流量,记为 Fk(B)RN(B)×2\mathrm{F}_{k}^{(\mathrm{B})} \in \mathbb{R}^{N^{(\mathrm{B})} \times 2}

人群过渡。 基于建筑物级别的人群流动,我们然后找到建筑物到建筑物的转换矩阵 TkRN(B)×N(B)\mathrm{T}_{k} \in \mathbb{R}^{N^{(\mathrm{B})} \times N^{(\mathrm{B})}} ,其中每个元素 Tk[b,b](b,b{1,,N(B)})\mathrm{T}_{k}\left[b, b^{\prime}\right]\left(b, b^{\prime } \in\left\{1, \ldots, N^{(\mathrm{B})}\right\}\right) 表示在时间间隔 𝑘 到 𝑏′ 中从建筑物 𝑏 离开的客户总数。 间隔 𝑘 或 (𝑘 + 1)(不连接到其间第三座建筑物中的 AP)。根据我们在 2020 年秋季和 2021 年春季的过渡时间分析,我们注意到超过 85% 的过渡持续时间短于 2 小时。 因此,我们为每个时间间隔考虑 1h,并考虑最多跨越两个连续时间间隔(𝑘 和 𝑘 + 1)的转换。

在这里插入图片描述

数据稀疏性和偏度。 通过我们对基于 Wi-Fi 的人群流动性数据的数据分析,我们识别并量化了稀疏性和偏度如下。 我们首先在图 5a 中展示了一周内从食堂到学生中心的过渡示例。 高度稀疏、不规则和动态的过渡使得建模和预测变得困难。 我们在图 5b 中进一步显示了跨建筑物的每小时转换矩阵的时间稀疏性。 我们在所有天的转换矩阵中找到平均稀疏百分比。 虽然由于记录到更多的人群流动性,白天的稀疏度下降,但我们仍然可以从转换矩阵中观察到显着的零点(超过 90%),这使得建模和预测变得非常具有挑战性。

缓解稀疏性的时空聚类。 受上述观察的启发,我们根据建筑物的时空移动模式将校园内的建筑物分组为不同的集群。 集群中的建筑物形成了具有相似移动特征的区域。 建筑物和集群之间的过渡模式的周期性和规律性变得更加清晰,因此可能更容易学习。

我们的目标是将建筑物聚集成具有相似时空移动模式的区域。 为此,我们设计了一个相似度得分以适应两个重要的观点:(i)地理距离方面的空间相似度,以及(ii)历史转变方面的时间相似度。 对于(i),我们考虑两座建筑物𝑏和𝑏′之间的地理距离(km),表示为𝑔[𝑏,𝑏′]。 对于 (ii),我们对转换矩阵 Tk\mathrm{T}_{k} 进行最小-最大归一化以获得与 𝑔[𝑏,𝑏′] 具有相似幅度的 Tk\overline{\mathrm{T}}_{k}。 然后我们将 diff[𝑏, 𝑏′] 定义为从建筑物 𝑏 和 𝑏′ 开始和结束的所有归一化转换的平方平均差,即

diff[b,b]=1N(B)kbN(B)(Tk[b,b]Tk[b,b])2+1N(B)kbN(B)(Tk[b,b]Tk[b,b])2(1)\operatorname{diff}\left[b, b^{\prime}\right]=\frac{1}{N^{(\mathrm{B})}} \sum_{k} \sum_{b^{\prime \prime}}^{N^{(\mathrm{B})}}\left(\overline{\mathrm{T}}_{k}\left[b, b^{\prime \prime}\right]-\overline{\mathrm{T}}_{k}\left[b^{\prime}, b^{\prime \prime}\right]\right)^{2}+\frac{1}{N^{(\mathrm{B})}} \sum_{k} \sum_{b^{\prime \prime}}^{N^{(\mathrm{B})}}\left(\overline{\mathrm{T}}_{k}\left[b^{\prime \prime}, b\right]-\overline{\mathrm{T}}_{k}\left[b^{\prime \prime}, b^{\prime}\right]\right)^{2} \tag{1}

我们在两座建筑物之间的相似度得分,𝑏和𝑏′,然后变为

sim[b,b]=βg[b,b]diff[b,b](2)\operatorname{sim}\left[b, b^{\prime}\right]=-\beta \cdot g\left[b, b^{\prime}\right]-\operatorname{diff}\left[b, b^{\prime}\right] \tag{2}

其中𝛽是一个超参数。 然后我们采用 Affinity Propagation 聚类 [6] 对建筑物进行聚类,这不需要明确输入聚类的数量。 我们在图 6 中说明了基于 2020-2021 年期间所有过渡的 128 座选定建筑物的 21 个集群。 我们在图 7 中进一步展示了从餐厅到一个集群的每小时转换,我们可以观察到比图 5a 更规律的模式。 在这里插入图片描述

集群级流程和构建集群转换。 给定生成的 N(C)N^{(\mathrm{C})} 个簇(簇为“C\mathrm{C}”),我们进一步聚合并找到所有簇在时间间隔 k 处的簇级流, Fk(C)RN(C)×2\mathrm{~ F}_{k}^{(\mathrm{C})} \in \mathbb{R}^{N^{(\mathrm{C})} \times 2} ,作为关联记录的数量(流入) 或每个集群的所有建筑物中的解离记录(流出)。 令 c 为簇的索引。 基于形成的簇,我们找到了构建簇转移矩阵 TkRN(B)×N(C)×2\mathcal{T}_{k} \in \mathbb{R}^{N^{(\mathrm{B})} \times N^{(C)} \times 2} 在时间间隔 k ,其中 Tk[b,c,1]\mathcal{T}_{k}[b, c, 1] 表示从建筑物 b 到集群 c 的转换次数,并且 Tk[b,c,2]\mathcal {T}_{k}[b, c, 2] 表示从集群 c 到建筑物 b 的转换次数。

基于生成的建筑物集群,我们可以获得更规则的人群流动/转移模式,减轻稀疏和倾斜的人群流动数据的对抗效应,并增强 GAEFT 的可学习性。此外,建筑物和集群之间的转移知识包括 多个其他建筑物将帮助相关利益相关者处理潜在的拥挤区域,以进行宽敞的场地管理。

问题陈述。 基于处理后的数据,我们提出了 GAEFT 的研究问题如下。给定历史 𝐾 建筑物级流程和集群级流程,{Fk(B)} and {Fk(C)},k{1,2,,K}\left\{\mathbf{F}_{k}^{(\mathrm{B})}\right\} \text { and }\left\{\mathbf{F}_{k}^{(\mathrm{C})}\right\}, k \in\{1,2, \ldots, K\},校园地图和建筑物形成的图网络,以及外部因素 e,GAEFT 同时预测下一个目标时间的建筑物-集群转换 T^\widehat{\mathcal{T}} 和 AP 级流量F^(A)\widehat{\mathbf{F}}^{(\mathrm{A})} 间隔。

3 GAEFT的核心公式

我们首先在 3.1节 中概述了核心模型,并在 3.2节中介绍了图聚合器的设计。 之后,我们将在 3.3 节中介绍如何融合集群级和建筑物级流入/流出嵌入,然后在 3.4 节中介绍时空注意机制。

3.1 GAEFT架构概述

图 8 概述了 GAEFT 的核心架构。 GAEFT 由两条并行连接的管道组成,共同学习流入(图 8 中的上半部分)和流出(图 8 中的下半部分)。 GAEFT 的关键思想类似于矩阵分解,其中一个稀疏矩阵被分解为两个密集矩阵,它保留了稀疏输入中最重要的信息 [19],从而增强了模型在稀疏移动数据上的可学习性。 我们将介绍以下四个主要组成部分。 在这里插入图片描述

(a) 图聚合:GAEFT 接收建筑物级流 Fk(B)\mathbf{F}_{k}^{(\mathrm{B})}和集群级流 Fk(C)\mathbf{F}_{k}^{(\mathrm{C})},其中Fk(B)[:,1]Fk(C)[:,1]\mathbf{F}_{k}^{(\mathrm{B})}[:, 1] 和 \mathbf{F}_{k}^{(\mathrm{C})}[:, 1]对应 流入,Fk(B)[:,2]\mathbf{F}_{k}^{(\mathrm{B})}[:, 2]Fk(C)[:,2]\mathbf{F}_{k}^{(\mathrm{C})}[:, 2] 对应流出。 以图 8 上半部分的流入为例,我们首先使用图聚合器(第 3.2 节)来捕获相邻节点(即建筑物或集群)之间的局部特征相关性。具体来说,给定输入 Fk(B)[:,1]\mathbf{F}_{k}^{(\mathrm{B})}[:, 1]Fk(C)[:,1]\mathbf{F}_{k}^{(C)}[:, 1] ,GAEFT基于构建的图聚合器和集群图聚合器 分别生成建筑物级流入嵌入 H(B)\mathbf{H}^{(\mathrm{B})} 和集群级流入嵌入 H(C)\mathbf{H}^{(\mathrm{C})}

(b) 分配融合:然后我们通过分配融合(第 3.3 节)将 H(C)H(B)\mathbf{H}^{(\mathrm{C})} 和 \mathbf{H}^{(\mathrm{B})} 合并到为了融合来自建筑物和集群的嵌入特征。这样,我们获得了 H\overline{\mathbf{H}} ,即建筑级流入嵌入。

(c) 空间和时间注意:给定 H\overline{\mathrm{H}} ,然后我们在 H\overline{\mathrm{H}} 的空间和时间注意方面采用注意机制(第 3.4 节)来进一步捕获近处和远处建筑物/集群的局部和全局空间相关性,以及历史和预测时间间隔之间的时间相关性。我们设计了门控融合来结合空间和时间的关注。

(d) 与外部因素&历史转换的整合:attention 后生成的输出将与 e 融合,外部因素如天气条件和工作日/周末(第 4.1 节),以协助 GAEFT 学习复杂的人群流动性环境。生成的嵌入包括两部分:H~(T)\widetilde{\mathbf{H}}^{(T)}用于转换预测,H~(F)\widetilde{\mathbf{H}}^{(\mathrm{F})} 用于最终 AP\mathrm {AP} 级流入预测 (F^(A)[:,1])\left(\widehat{\mathbf{F}}^{(\mathrm{A})}[:, 1]\right)。 GAEFT 融合上下半部分的嵌入,并与相同历史时间间隔(第 4.1 节)中的转换合并,表示为 Tk\mathcal{T}_{k^{*}},最后生成最终的建筑物-集群转换预测 T^\widehat{\mathcal{T}}

上述过程适用于处理流出的下半部分,这将导致预测的 AP 级别流出,F^(A)[:,2]\widehat{\mathbf{F}}^{(\mathrm{A})}[:, 2]。我们将在以下部分进一步讨论每个组件的细节。

3.2 空间特征学习的图聚合

将相关性视为连接不同校园位置的边作为节点,我们将位置制定为图形并引入图形聚合以捕获每个位置的空间特征,即建筑物或集群。在这里,我们将节点的空间特征表示为节点嵌入,它可以通过聚合其相邻节点的空间特征来生成,即,由它们之间的相关性加权的相邻节点的特征总和。由于每个建筑物或集群的流入和流出对其附近的人群流动模式进行编码,因此我们采用流入/流出作为我们公式的节点特征。

为了生成建筑物/集群级别的流入/流出嵌入,我们首先分别为建筑物和集群设计两个图聚合器,以从输入中捕获固有的空间建筑物到建筑物和集群到集群的相关性。在实践中,每个节点的特征与其相邻节点的特征比相距较远的其他节点的特征更相关[36]。因此,我们首先设计了一种基于它们相互地理空间距离的特征提取聚合策略。

具体来说,我们考虑一个建筑图 G(B)\mathcal{G}^{(\mathrm{B})},它包含 N(B)N^{(\mathrm{B})} 个建筑物作为节点,它们的地理空间距离作为边。 类似地,我们将簇的质心点作为节点,将质心点之间的相互地理空间距离作为边,形成簇图 G(C)\mathcal{G}^{(\mathrm{C})}。 以建筑级流入为例,我们定义d[b,b]=1g[b,b](km1)d\left[b, b^{\prime}\right]=\frac{1}{g\left[b, b^{\prime}\right]}\left(\mathrm{km}^{-1}\right) ,即建筑物 bbbb^{\prime} 之间的逆地理距离;如果 b=bb=b^{\prime}, 我们设置 d[b,b]=0d\left[b, b^{\prime}\right]=0 。 然后建筑物 b 的聚合流特征,用 Fk(B)[b]R1\overline{\mathbf{F}}_{k}^{(\mathrm{B})}[b] \in \mathbb{R}^{1} 表示, 由来自其他建筑物的流入的加权和给出,Fk(B)[b,1]R1\mathrm{F}_{k}^{(\mathrm{B})}\left[b^{\prime}, 1\right] \in \mathbb {R}^{1} ,即

Fk(B)[b]=bN(B)d[b,b]Fk(B)[b,1]bN(B)d[b,b](3)\overline{\mathbf{F}}_{k}^{(\mathrm{B})}[b]=\sum_{b^{\prime}}^{N^{(\mathrm{B})}} \frac{d\left[b, b^{\prime}\right] \cdot \mathbf{F}_{k}^{(\mathrm{B})}\left[b^{\prime}, 1\right]}{\sum_{b^{\prime}}^{N^{(\mathrm{B})}} d\left[b, b^{\prime}\right]} \tag{3}

换句话说,彼此更接近的节点具有更高的 d[b,b]d\left[b, b^{\prime}\right] 并且随后在生成的嵌入中具有更强的相关性。 等式(3)适用于流出(导致 Fk(B)[b]{\overline{\mathrm{F}_{k}^{\prime}}}^{(\mathrm{B})}[b]),我们可以类似地制定聚合流 集群级流的功能(将“B”替换为“C”)。

如上所述,Fk(B)[b]\overline{\mathbf{F}}_{k}^{(\mathrm{B})}[b] 成为节点附近人群流动特征的聚合。 然后,我们结合构建 𝑏 的原始流特征 Fk(B)[b,1]\mathbf{F}_{k}^{(\mathrm{B})}[b, 1],以全面表示构建 𝑏 的流入嵌入。 具体来说,建筑物𝑏,Hk(B)[b]Rw\mathbf{H}_{k}^{(\mathrm{B})}[b] \in \mathbb{R}^{w}的建筑物级流入嵌入将由下式给出

Hk(B)[b]=ReLu((Fk(B)[b,1]Fk(B)[b])W)(4)\mathbf{H}_{k}^{(\mathrm{B})}[b]=\operatorname{ReLu}\left(\left(\mathbf{F}_{k}^{(\mathrm{B})}[b, 1] \| \overline{\mathbf{F}}_{k}^{(\mathrm{B})}[b]\right) \cdot \mathbf{W}\right) \tag{4}

其中 WR2×w\mathbf{W} \in \mathbb{R}^{2 \times w} 是聚合器的可学习参数矩阵,w 是建筑物级流入嵌入的大小,而 | 是串联操作。 然后我们使用 H(B)RK×N(B)×w\mathbf{H}^{(\mathrm{B})} \in \mathbb{R}^{K \times N^{(\mathrm{B})} \times w} 来表示流入嵌入 在所有 K 间隔内的所有建筑物。 类似地,我们得到 H(B)H(C)H(C)\mathbf{H}^{\prime(\mathrm{B})}、\mathbf{H}^{(\mathrm{C})} 和 \mathbf{H}^{\prime(\mathrm{C})} 分别作为建筑物级流出嵌入、集群级流入嵌入和集群级流出嵌入。

图 9 展示了我们的聚合策略示例,该示例基于构建 b1b_{1} 与其他对等点 b2b3b4b_{2}、b_{3} 和 b_{4}(表示为 d[b1,b2],d[b1,b3]d[b1,b4]d\left[b_{ 1}, b_{2}\right], d\left[b_{1}, b_{3}\right] 和 d\left[b_{1}, b_{4}\right])。 给定 Hk(B)[1]\mathbf{H}_{k}^{(\mathrm{B})}[1] 基于等式(3),我们连接流特征 Fk(B)[1,1]\mathbf{F}_{k}^{(\mathrm {B})}[1,1]b1b_{1} 使用 Eq.(4),并为后面的分配融合形成一个全面的表示。

3.3 集群嵌入与建筑的赋值融合

从图聚合器获得的集群级流入和流出嵌入 H(C)\mathbf{H}^{(C)}H(C)\mathbf{H}^{\prime(C)} 包含集群的空间特征,包括多个建筑物,因此与建筑物级别的流入/流出嵌入具有内在相关性,H(B)\mathbf{H}^{(\mathrm{B})}H(B)\mathbf{H}^{\prime(\mathrm{B}) } 。我们可以利用这种固有的相关性来设计一种融合机制,以进一步重建人群流动和过渡。这样,我们可以增强模型的可学习性并减轻输入数据稀疏的影响。

为此,我们设计了一种分配融合机制,将集群级流入/流出嵌入合并到建筑物级流入/流出嵌入中。具体来说,以建筑物级流入嵌入为例,我们映射总的 N(C)N^{(\mathrm{C})} 个集群级流入嵌入,Hk(C)\mathrm{H}_{k}^{(\mathrm{C })} ,通过可训练的指标矩阵 I 分配给总共 N(B)N^{(\mathrm{B})} 个建筑物。这里每个集群的嵌入仅分配给该集群中的建筑物。然后我们将映射的集群级流入嵌入添加到建筑物级流入嵌入 Hk(B)\mathbf{H}_{k}^{(\mathrm{B})} ,即

Hk=Hk(B)+IHk(C)(5)\overline{\mathbf{H}}_{k}=\mathbf{H}_{k}^{(\mathrm{B})}+\mathrm{I} \cdot \mathbf{H}_{k}^{(\mathrm{C})} \tag{5}

其中 IR(B)×N(C)\mathbf{I} \in \mathbb{R}^{(\mathrm{B})} \times N^{(\mathrm{C})} 是一个可训练的指标矩阵,表示建筑物应映射到哪个集群,即

I[b,c]={w[b], if a building b should be mapped to a cluster c0, otherwise (6)\mathbf{I}[b, c]=\left\{\begin{array}{ll} \mathbf{w}[b], & \text { if a building } b \text { should be mapped to a cluster } c \\ 0, & \text { otherwise } \end{array}\right. \tag{6}

其中 w=[w[1],,w[b],,w[N(B)]]RN(B)\mathbf{w}=\left[\mathbf{w}[1], \ldots, \mathbf{w}[b], \ldots, \mathbf{w}\left[N^{(\mathrm{B })}\right]\right] \in \mathbb{R}^{N^{(\mathrm{B})}} 表示可训练参数的向量。我们注意到,如果建筑物 b 在集群 c 中,则 \mathbf{w}[b] 的正(负)值表示建筑物 b 和集群 c 之间的正(负)相关性。 GAEFT 的训练将找到 \mathbf{w} 的值并确定相关性。这样,GAEFT 将利用不同的权重来描述集群级和建筑物级流入/流出嵌入的相关性,从而帮助识别它们的相关性以进行进一步的模型学习。 在这里插入图片描述

图 10 说明了两个集群 c_{1} 和 c_{2} 的示例,以及每个集群内的相应建筑物。鉴于这些,我们的分配融合将旨在学习映射权重 w\mathbf{w} 使得 c1c_{1} 的嵌入将仅映射到 b1b_{1}b2b_{2} ,类似地 c2c_{2} 将映射到 b3b_{3}b4b_{4}

在所有时间间隔内,所有建筑物的合并建筑物级流入嵌入 H\overline{\mathrm{H}}变为

HRK×N(B)×w={H1[1],,Hk[b],,HK[N(B)]}(7)\overline{\mathrm{H}} \in \mathbb{R}^{K \times N^{(\mathrm{B})} \times w}=\left\{\overline{\mathbf{H}} _{1}[1], \ldots, \overline{\mathbf{H}}_{k}[b], \ldots, \overline{\mathbf{H}}_{K}\left[N^{ (\mathrm{B})}\right]\right\} \tag{7}

类似地,我们可以获得合并的建筑物级流出嵌入, HRK×N(B)×w\overline{\mathrm{H}}^{\prime} \in \mathbb{R}^{K \times N^{(\mathrm{B})} \times w}

3.4 时空注意力机制及其融合

使用合并的建筑物级流入和流出嵌入 HH\overline{\mathbf{H}} 和 \overline{\mathbf{H}^{\prime}} ,然后我们在空间和时间注意方面添加两个掩码以增强GAEFT 的时空可学习性。

3.4.1 空间注意力。

我们注意到,等式(3)中描述的图聚合器侧重于在地理距离方面彼此接近的建筑物之间的局部相关性。然而,由于特定的通勤习惯或人群的偏好,仍然存在跨越相距很远的建筑物的人群过渡。例如,如图 11 所示,我们可以注意到人群从一栋学术大楼转移到另一栋远处的大楼。简单地使用图聚合器可能会忽略这种转换和固有的相关性。因此,有必要整合和区分这种多层次(本地和全球)人群流动的流动趋势,以提高模型的可学习性。

为此,我们在建筑物级流入和流出嵌入上提出了一个多头空间注意掩码 [40],即 HkRN(B)×w={Hk[1],,Hk[N(B)]}\overline{\mathbf{H}}_{k} \in \mathbb{R}^{ N^{(\mathrm{B})} \times w}=\left\{\overline{\mathbf{H}}_{k}[1], \ldots, \overline{\mathbf{H}}_ {k}\left[N^{(\mathrm{B})}\right]\right\}HkRN(B)×w={Hk[1],,Hk[N(B)]}\overline{\mathbf{H}}_{k}^{\prime} \in \mathbb{R} ^{N^{(\mathrm{B})} \times w}=\left\{\overline{\mathbf{H}}_{k}^{\prime}[1], \ldots, \overline{ \mathbf{H}}_{k}^{\prime}\left[N^{(\mathrm{B})}\right]\right\} ,在每个时间间隔 k 。我们让 Sp 标记与空间注意力相关的术语。对于建筑物 b 在每个时间间隔 k 内的第 m 个注意力头 (m{1,,M})(m \in\{1, \ldots, M\}),我们首先获得一个查询矩阵 qk,m(Sp)\mathbf{q}_{k, m} ^{(\mathrm{Sp})} ,通过连接建筑物级流入/流出嵌入 HkHk\overline{\mathbf{H}}_{k} 和 \overline{\mathbf{H}}_{k}^{ \prime} ,即

qk,m(Sp)=tanh(Qm(Sp) Flatten (HkHk))(8)\mathbf{q}_{k, m}^{(\mathrm{Sp})}=\tanh \left(\mathrm{Q}_{m}^{(\mathrm{Sp})} \cdot \text { Flatten }\left(\overline{\mathbf{H}}_{k} \| \overline{\mathbf{H}}_{k}^{\prime}\right)\right) \text {, } \tag{8}

其中 Qm(Sp)Rw/M×2N(B)w\mathbf{Q}_{m}^{(\mathrm{Sp})} \in \mathbb{R}^{w / M \times 2 N^{(\mathrm{B})} w} 是可训练的参数矩阵和 |是串联操作。我们从建筑物级流入/流出嵌入的扁平连接中生成查询矩阵,HkHk\overline{\mathbf{H}}_{k} \| \overline{\mathbf{H}}_{k}^{\prime} 来解释它们在嵌入式流模式方面的相似性。

然后我们找到关键矩阵 xk,m(Sp)[b]xk,m(Sp)[b]\mathbf{x}_{k, m}^{(\mathrm{Sp})}[b] 和 \mathbf{x}_{k, m}^{(\mathrm{Sp })^{\prime}}[b] ,对于每个建筑物 b 和每个区间 k ,它们分别由建筑物级别的流入和流出嵌入生成,Hk[b]Hk[b]Rw\overline{\mathbf{H}}_{k}[b ] 和 \overline{\mathbf{H}}_{k}^{\prime}[b] \in \mathbb{R}^{w} 。 以建筑级流入嵌入为例,我们有

xk,m(Sp)[b]=tanh(Xm(Sp)Hk[b]),(9)\mathbf{x}_{k, m}^{(\mathrm{Sp})}[b]=\tanh \left(\mathbf{X}_{m}^{(\mathrm{Sp})} \cdot \overline{\mathbf{H}}_{k}[b]\right), \tag{9}

其中 Xm(Sp)Rw/M×w\mathbf{X}_{m}^{(\mathrm{Sp})} \in \mathbb{R}^{w / M \times w} 是可训练的参数矩阵。

通过比较关键矩阵 xk,m(Sp)[b]\mathbf{x}_{k, m}^{(\mathrm{Sp})}[b] 和查询矩阵 qk,m(Sp)\mathbf{q}_{k, m}^{(\mathrm{Sp})} ,通过内积,我们可以获得建筑物级流入嵌入的空间注意力权重 αk,m(Sp)[b]\boldsymbol{\alpha}_{k, m}^{(\mathrm{Sp})}[b] 表征建筑物𝑏和其他建筑物之间的移动趋势,即

αk,m(Sp)[b]=sigmoid(qk,m(Sp)(xk,m(Sp)[b])w/M)(10)\boldsymbol{\alpha}_{k, m}^{(\mathrm{Sp})}[b]=\operatorname{sigmoid}\left(\frac{\mathbf{q}_{k, m}^{(\mathrm{Sp})} \cdot\left(\mathbf{x}_{k, m}^{(\mathrm{Sp})}[b]\right)^{\top}}{\sqrt{w / M}}\right) \tag{10}

所有建筑物的注意力权重,αk,m(Sp)={αk,m(Sp)[1],,αk,m(Sp)[N(B)]}\boldsymbol{\alpha}_{k, m}^{(\mathrm{Sp})}=\left\{\boldsymbol{\alpha}_{k, m}^{( \mathrm{Sp})}[1], \ldots, \boldsymbol{\alpha}_{k, m}^{(\mathrm{Sp})}\left[N^{(\mathrm{B})} \right]\right\} ,形式 αk,m(Sp)RN(B)\boldsymbol{\alpha}_{k, m}^{(\mathrm{Sp})} \in \mathbb{R}^{N^{(\mathrm{B}) }} ,它编码流入的流动性趋势。同样,对于流出的流动趋势,我们可以得到 αk,m(Sp)\boldsymbol{\alpha}_{k, m}^{(\mathrm{Sp})^{\prime}}。然后,我们生成用于建筑物级流入嵌入的值矩阵 vk,m(Sp)[b]\mathbf{v}_{k, m}^{(\mathrm{Sp})}[b]

vk,m(Sp)[b]=tanh(Vm(Sp)Hk[b]),(11)\mathbf{v}_{k, m}^{(\mathrm{Sp})}[b]=\tanh \left(\mathbf{V}_{m}^{(\mathrm{Sp})} \cdot \overline{\mathbf{H}}_{k}[b]\right), \tag{11}

其中 Vm(Sp)Rw/M×w\mathbf{V}_{m}^{(\mathrm{Sp})} \in \mathbb{R}^{w / M \times w} 是一个可训练的参数矩阵(与流出类似)。 基于方程(10)和(11),我们为建筑物 b 在时间间隔 k 的流入嵌入生成空间注意机制的输出,Ak(Sp)[b]Rw\mathrm{A}_{k}^{(\mathrm{Sp})}[b] \in \mathbb{R}^{w} ,通过连接所有 M 个注意力头的加权值矩阵:

Ak(Sp)[b]=mMαk,m(Sp)[b]vk,m(Sp)[b].(12)\mathbf{A}_{k}^{(\mathrm{Sp})}[b]=\|_{m}^{M} \boldsymbol{\alpha}_{k, m}^{(\mathrm{Sp})}[b] \cdot \mathbf{v}_{k, m}^{(\mathrm{Sp})}[b] . \tag{12}

我们最终形成流入的空间注意力输出(与流出类似),表示为 A(Sp)RK×N(B)×w\mathrm{A}^{(\mathrm{Sp})} \in \mathbb{R}^{K \times N^{(\mathrm {B})} \times w} ,对于所有建筑物和时间间隔,即

A(Sp)={A1(Sp)[1],,Ak(Sp)[b],,AK(Sp)[N(B)]}(13)\mathrm{A}^{(\mathrm{Sp})}=\left\{\mathrm{A}_{1}^{(\mathrm{Sp})}[1], \ldots, \mathrm{A}_{k}^{(\mathrm{Sp})}[b], \ldots, \mathrm{A}_{K}^{(\mathrm{Sp})}\left[N^{(\mathrm{B})}\right]\right\} \tag{13}

3.4.2 时间注意力

为了进一步捕捉不同时间间隔的人群流动之间的时间相关性,我们设计了一种多头时间注意机制。令 Tp 为表示时间注意力内术语的符号。对于建筑物 b 的历史时间间隔 k 的总 P 注意力头的第 p 个输出,我们生成查询矩阵 qb,p(T)\mathbf{q}_{b, p}^{(\mathrm{T})}连接所有历史 K 时间间隔的建筑物 b 的流入/流出嵌入,H[b]RK×w={H1[b]Hk[b]}H[b]RK×w={H1[b],,Hk[b]}\overline{\mathbf{H}}[b] \in \mathbb{R}^{K \times w}=\left\{\overline {\mathbf{H}}_{1}[b]、\ldots、\overline{\mathbf{H}}_{k}[b]\right\} 和 \overline{\mathbf{H}}^{ \prime}[b] \in \mathbb{R}^{K \times w}=\left\{\overline{\mathbf{H}}_{1}^{\prime}[b], \ldots, \overline{\mathbf{H}}_{k}^{\prime}[b]\right\} ,即

qb,p(Tp)=tanh(Qp(Tp) Flatten (H[b]H[b])),(14)\mathbf{q}_{b, p}^{(\mathrm{Tp})}=\tanh \left(\mathbf{Q}_{p}^{(\mathrm{Tp})} \cdot \text { Flatten }\left(\overline{\mathbf{H}}[b] \| \overline{\mathbf{H}}^{\prime}[b]\right)\right), \tag{14}

其中 Qp(T)Rw/P×2Kw\mathbf{Q}_{p}^{(\mathrm{T})} \in \mathbb{R}^{w / P \times 2 K w} 是可训练的参数矩阵。

我们将注意力集中在建筑物级流入嵌入的时间关注上,如下所示。按照与空间注意机制相同的方式,我们生成关键矩阵 xk,p(Tp)[b]\mathbf{x}_{k, p}^{(\mathrm{Tp})}[b],注意权重 αk,p(Tp)[b]\boldsymbol{\alpha}_{k , p}^{(\mathrm{Tp})}[b] 和值矩阵 vk,p(Tp)[b]\mathbf{v}_{k, p}^{(\mathrm{Tp})}[b] 通过

xk,p(Tp)[b]=tanh(xp(Tp)Hk[b]),αk,p(Tp)[b]=sigmoid(qb,p(Tp)(xk,p(Tp)[b])w/P),vk,p(Tp)[b]=tanh(vp(Tp)Hk[b]),(15)\mathbf{x}_{k, p}^{(\mathrm{Tp})}[b]=\tanh \left(\mathbf{x}_{p}^{(\mathrm{Tp})} \cdot \overline{\mathbf{H}}_{k}[b]\right), \boldsymbol{\alpha}_{k, p}^{(\mathrm{Tp})}[b]=\operatorname{sigmoid}\left(\frac{\mathbf{q}_{b, p}^{(\mathrm{Tp})} \cdot\left(\mathbf{x}_{k, p}^{(\mathrm{Tp})}[b]\right)^{\top}}{\sqrt{w / P}}\right), \mathbf{v}_{k, p}^{(\mathrm{Tp})}[b]=\tanh \left(\mathrm{v}_{p}^{(\mathrm{T} p)} \cdot \overline{\mathbf{H}}_{k}[b]\right), \tag{15}

其中 Xp(Tp)Rw/P×w\mathbf{X}_{p}^{(\mathrm{Tp})} \in \mathbb{R}^{w / P \times w}Vp(Tp)Rw/P×w\mathbf{V}_{p}^{(\mathrm{Tp})} \in \mathbb{R}^{w / P \times w} 是对应的可学习参数矩阵。注意权重 αk,p(Tp)\boldsymbol{\alpha}_{k, p}^{(\mathrm{Tp})} 表示时间间隔 k 的建筑物级流入嵌入在所有 K 个历史时间间隔中的重要性,并且较高的值表示时间间隔 k 与未来时间间隔之间的相关性较高。然后将所有 P 个头的加权值矩阵连接起来,构建 b 的流入嵌入的时间注意输出,Ak(Tp)[b]Rw\mathbf{A}_{k}^{(\mathrm{Tp})}[b] \in \mathbb{R}^{w} ,变为

Ak(Tp)[b]=pPαk,p(Tp)[b]vk,p(Tp)[b].(16)\mathbf{A}_{k}^{(\mathrm{Tp})}[b]=\|_{p}^{P} \boldsymbol{\alpha}_{k, p}^{(\mathrm{Tp})}[b] \cdot \mathbf{v}_{k, p}^{(\mathrm{Tp})}[b] . \tag{16}

我们最后输出,记为 A(Tp)RK×N(B)×w\mathrm{A}^{(\mathrm{Tp})} \in \mathbb{R}^{K \times N^{(\mathrm{B})} \times w} ,对于所有时间间隔的所有建筑物,

A(Tp)={A1(Tp)[1],,Ak(Tp)[b],,AK(Tp)[N(B)]}.(17)\mathrm{A}^{(\mathrm{Tp})}=\left\{\mathrm{A}_{1}^{(\mathrm{Tp})}[1], \ldots, \mathrm{A}_{k}^{(\mathrm{Tp})}[b], \ldots, \mathrm{A}_{K}^{(\mathrm{Tp})}\left[N^{(\mathrm{B})}\right]\right\} .\tag{17}

3.4.3 门控融合

给定建筑物级流入嵌入的空间和时间注意力的输出,即 A(Sp)RK×N(B)×wA(Tp)RK×N(B)×w\mathrm{A}^{(\mathrm{Sp})} \in \mathbb{R}^{K \times N^{(\mathrm{B})} \times w} 和 \mathrm{A}^{(\mathrm{Tp})} \in \mathbb{R}^{K \times N^{(\mathrm{B})} \times w} ,我们进一步融合并将它们添加到之前的建筑级流入嵌入中,HRK×N(B)×w\overline{\mathbf{H}} \in \mathbb{R}^{K \times N^{(\mathrm{B}) } \times w} 在等式。 (7)。请注意,对于不同的建筑物和不同的时间间隔,由此产生的空间和时间注意力可能具有不同的权重。因此,我们采用门控融合机制进一步融合两种注意力机制的输出,得到合并的注意力输出 A(S)RK×N(B)×w\mathrm{A}^{(\mathrm{S})} \in \mathbb{R}^{K \times N^{(\mathrm{B})} \times w} ,即

A(S)=SA(Sp)+(1S)A(Tp),(18)\mathrm{A}^{(\mathrm{S})}=\mathrm{S} \circ \mathrm{A}^{(\mathrm{Sp})}+(\mathbf{1}-\mathrm{S}) \circ \mathrm{A}^{(\mathrm{Tp})}, \tag{18}

其中 o 表示逐元素乘积运算, 1RK×N(B)×w\mathbf{1} \in \mathbb{R}^{K \times N^{(\mathrm{B})} \times w} 是一个矩阵,其中所有条目都是 1. 这里 SRK×N(B)×wS \in \mathbb{R}^{K \times N^{(B)} \times w} 是权重矩阵,表示空间注意力掩码对每个建筑物的流入/流出嵌入的相对重要性 间隔,即

S=sigmoid(A(Sp)W(Sp)+A(Tp)W(Tp)+b(S))(19)\mathrm{S}=\operatorname{sigmoid}\left(\mathrm{A}^{(\mathrm{Sp})} \cdot \mathbf{W}^{(\mathrm{Sp})}+\mathbf{A}^{(\mathrm{Tp})} \cdot \mathbf{W}^{(\mathrm{Tp})}+\mathbf{b}^{(\mathrm{S})}\right) \text {, } \tag{19}

其中矩阵 W(Sp)Rw×w,W(Tp)Rw×wb(S)Rw\mathbf{W}^{(\mathrm{Sp})} \in \mathbb{R}^{w \times w}, \mathbf{W}^{(\mathrm{Tp})} \in \mathbb{R}^{w \times w} 和 \mathbf{b}^{(\mathrm{S})} \in \mathbb{R}^{w} 是可学习的参数矩阵。 在这里,我们采用 sigmoid 激活函数来强制权重矩阵的值落在 [0,1] 的范围内。

然后我们将 A(S)\mathbf{A}^{(\mathrm{S})} 与从等式返回的建筑物级流入嵌入 H\overline{\mathrm{H}} 合并。 (7),并获得未来时间间隔的建筑物级流入嵌入,ARN(B)×w\overline{\mathrm{A}} \in \mathbb{R}^{N^{(\mathrm{B})} \times w } ,通过密集层,即,

A=Dense(H+A(S))(20)\overline{\mathrm{A}}=\operatorname{Dense}\left(\overline{\mathrm{H}}+\mathrm{A}^{(\mathrm{S})}\right) \text {. } \tag{20}

4 模型集成&多任务学习

鉴于上面的建筑物级流入/流出嵌入,A\overline{\mathrm{A}}A\overline{\mathrm{A}}^{\prime},我们在第 4.1 节中整合了外部因素和历史转换。然后,我们在 4.2 节中详细介绍了建筑集群转换和 AP 级流程以及多任务学习建模的最终预测。

4.1 整合外部因素&历史变迁

4.1.1 外部因素。

在这里插入图片描述

如图 12 所示,给定由 l_{e} 个外部因素形成的向量 eRle\mathbf{e} \in \mathbb{R}^{l_{e}},我们首先采用两个连续的 Dense 层,然后是tanh 激活函数来生成外部因素的隐藏状态,记为h(e)Rle\mathbf{h}^{(\mathrm{e})}\in\mathbb{R}^{l_{e}^{\prime}},即

h(e)=tanh( Dense(Dense (e)) ) . (21)\mathbf{h}^{(\mathrm{e})}=\tanh (\text { Dense(Dense }(\mathbf{e})) \text { ) . }\tag{21}

然后我们将分别向转换和流重塑输出h(e)\mathbf{h}^{(e)}。 具体来说,对于转移预测,方程(21)的输出维度设置为 le=N(B)wl_{e}^{\prime}=N^{(\mathrm{B})} \cdot w ,在 reshape 操作之后我们将有 二维张量 h(T)RN(B)×w\mathbf{h}^{(\mathrm{T})} \in \mathbb{R}^{N^{(\mathrm{B})} \times w} 。 回想一下,我们有从 Eq.(20) 获得的建筑物级流入嵌入 A\overline{\mathrm{A}},我们将融合 Ah(T)\overline{\mathrm{A}} 与 \mathbf{h}^{(\mathrm{T})} ,即 H~(T)RN(B)×w=A+h(T)\widetilde{\mathbf{H}}^{(\mathrm{T})} \in \mathbb{R}^{N^{(\mathrm{B})} \times w}=\overline{\mathrm{A}}+\mathbf{h}^{(\mathrm{T})} ,并获得最终的建筑物级流入嵌入 H~(T)\widetilde{\mathbf{H}}^{( \mathrm{T})} 用于转换预测。

同样,对于流预测,我们设置 le=w2l_{e}^{\prime}=w^{2} 以便于重塑操作,并将 Ah(F)\overline{\mathbf{A}} 与 \mathbf{h}^{ (\mathrm{F})} 以获得最终的建筑级流入嵌入 H~(F)RN(B)×w\widetilde{\mathrm{H}}^{(\mathrm{F})} \in \mathbb{R}^{N^{(\mathrm{B})} \times w} 用于流量预测。这些设计同样适用于建筑物级流出嵌入和后续预测 (H~(T)H~(F))\left(\widetilde{\mathbf{H}}^{\prime(\mathrm{T})}\right. 和 \left.\widetilde{\mathbf{H}}^{\prime(\mathrm{F})}\right)

4.1.2 历史转变。

我们还从我们的数据分析中观察到,时间间隔 k 的转换次数与相同历史时间间隔(例如,前一天相同的上午 8:00-9:00)中的转换高度相似。因此,我们在历史时间间隔内合并了建筑物-集群转换, TkRN(B)×N(C(C)×2\mathcal{T}_{k^{*}} \in \mathbb{R}^{N^{(\mathrm{B})} \times N ^{\left(C^{(C)} \times 2\right.}} ,在我们的模型设计中(如图 8 所示),其中 k^{*} 设置为与未来相同的时间间隔一天前的时间间隔。我们采用 3 层 2D 卷积神经网络 (Conv2D) 在时间间隔 kk^* 处提取历史建筑-集群转换的隐藏特征,记为 Hk(His)RN(B)×N(C)×2\mathbf{H }_{k^{*}}^{(\mathrm{His})} \in \mathbb{R}^{N^{(\mathrm{B})} \times N^{(\mathrm{C} )} \times 2} . 具体来说,我们有

Hk(His )=ReLu(Conv2D(Conv2D(Conv2D(Tk)))),(22)\mathbf{H}_{k^{*}}^{(\text {His })}=\operatorname{ReLu}\left(\operatorname{Conv2D}\left(\operatorname{Conv2D}\left(\operatorname{Conv2D}\left(\mathcal{T}_{k^{*}}\right)\right)\right)\right), \tag{22}

我们对每个卷积层采用零填充,并将最后一层的输出通道大小设置为 2。我们使用 ReLu 激活函数来确保非负输出值。然后将提取的隐藏特征 Hk(His) \mathrm{H}_{k^{*}}^{\text {(His) }} 融合到由建筑物级流入/流出嵌入生成的转换矩阵中,以返回最终的预测(详见第 4.2 节)。

4.2 预测建筑集群转换和 AP 级流程

4.2.1 建筑集群转换。

回想一下,我们获得了建筑级别的流入/流出嵌入,H~(T)RN(B)×w\widetilde{\mathbf{H}}^{(\mathrm{T})} \in \mathbb{R}^{N^{(\mathrm{B} )} \times w}H~(T)RN(B)×w\widetilde{\mathbf{H}}^{\prime(\mathrm{T})} \in \mathbb{R}^{N^{(\mathrm{B})} \times w},基于对过渡预测的外部因素的整合。我们首先找到建筑物的 H~(T)\widetilde{\mathbf{H}}^{(\mathrm{T})}H~(T)\widetilde{\mathbf{H}}^{\prime(\mathrm{T})} 之和在同一个集群中获得集群级流入和流出嵌入, H~(C)RN(C)×w\widetilde{\mathbf{H}}^{(\mathrm{C})} \in \mathbb{R}^{N^{(\mathrm{C})} \times w}H~(C)RN(C)×w\widetilde{\mathbf{H}}^{(\mathrm{C})^{\prime}} \in \mathbb{R}^{N^{(\mathrm {C})} \times w} ,即,

H~(C)[c]=bcH~(T)[b],H~(C)[c]=bcH~(T)[b](23)\widetilde{\mathbf{H}}^{(\mathrm{C})}[c]=\sum_{b \subseteq c} \widetilde{\mathbf{H}}^{(\mathrm{T})} [b], \quad \widetilde{\mathbf{H}}^{\prime(\mathrm{C})}[c]=\sum_{b \subseteq c} \widetilde{\mathbf{H}}^{ \prime(\mathrm{T})}[b] \tag{23}

我们的目标是基于与流相关的嵌入来获得转换,并受到矩阵分解 [19] 的启发,我们考虑乘法运算来实现这一点。具体来说,从建筑物到集群的转换,T~[:,:,1]RN(B)×N(C)\widetilde{\mathcal{T}}[:,:, 1] \in \mathbb{R}^{N^{(\mathrm{B})} \times N^{ (\mathrm{C})}} ,计算为建筑级流出嵌入 H~(T)\widetilde{\mathbf{H}}^{\prime(\mathrm{T})} 和集群级流入嵌入 H~(C)\widetilde {\mathrm{H}}^{(\mathrm{C})} ,即

T~[:,:,1]=ReLu(H~(T)(H~(C))),(24)\tilde{\mathcal{T}}[:,:, 1]=\operatorname{ReLu}\left(\widetilde{\mathbf{H}}^{\prime(\mathrm{T})} \cdot\left(\widetilde{\mathbf{H}}^{(\mathrm{C})}\right)^{\top}\right),\tag{24}

我们应用 ReLu 激活函数来确保预测始终为正。 类似地,从集群到建筑物的转换 T~[:,:,2]\widetilde{\mathcal{T}}[:,:, 2] 由建筑物级流入嵌入 H~(T)\widetilde{\mathrm{H}}^{( \mathrm{T})} 和集群级流出嵌入 H~(C)\widetilde{\mathbf{H}}^{\prime(\mathrm{C})} ,即

T~[:,:,2]=ReLu(H~(T)(H~(C))).(25)\widetilde{\mathcal{T}}[:,:, 2]=\operatorname{ReLu}\left(\widetilde{\mathbf{H}}^{(\mathrm{T})} \cdot\left(\widetilde{\mathrm{H}}^{\prime(\mathrm{C})}\right)^{\top}\right) . \tag{25}

我们最终通过描述的门控融合机制将历史转换的隐藏特征 Hk(His) \mathrm{H}_{k^{*}}^{\text {(His) }} 合并到 T~\widetilde{\mathcal{T}} 中在 Sec.3.4.3 中,并获得最终的建筑-集群转换预测,T^RN(B)×N(C)×2\widehat{\mathcal{T}} \in \mathbb{R}^{N^{(\mathrm{B})} \times N^ {(\mathrm{C})} \times 2}

4.2.2 AP 级流程。

类似地,我们使用来自外部因子融合的建筑级嵌入 (H~(F)H~(F))\left(\widetilde{\mathbf{H}}^{(\mathrm{F})}\right. 和\widetilde{\mathrm{H}}^ {\prime(\mathrm{F})} ) 来预测 AP 级别的流。具体来说,我们通过可训练的指示矩阵 JRN(A)×N(B)\mathrm{J} \in \mathbb{R}^{N^{(A)} \times N^{(\mathbb{B})}} 将建筑物级流入嵌入 H~(F)\widetilde{\mathbf{H}}^{(\mathrm{F})} 映射到位于同一建筑物内的所有 AP ,生成 AP 级流入嵌入,F~(A)RN(A)×w\widetilde{\mathbf{F}} ^{(\mathrm{A})} \in \mathbb{R}^{N^{(A)} \times w} ,即

F~(A)=JH~(F).(26)\widetilde{\mathbf{F}}^{(\mathrm{A})}=\mathbf{J} \cdot \widetilde{\mathbf{H}}^{(\mathrm{F})} . \tag{26}

请注意,J\mathrm{J} 表示 AP 所在的建筑物,即

J[a,b]={u[a], for ab0, otherwise (27)\mathrm{J}[a, b]=\left\{\begin{array}{ll} \mathrm{u}[a], & \text { for } a \subseteq b \\ 0, & \text { otherwise } \end{array}\right. \tag{27}

其中 u=[u[1],,u[a],u[N(A)]]RN(A)\mathbf{u}=\left[\mathbf{u}[1], \ldots, \mathbf{u}[a], \ldots \mathbf{u}\left[N^{(A)}\right ]\right] \in \mathbb{R}^{N^{(A)}} 是模型在训练过程中学习到的可训练参数的向量。我们同样获得了 AP 级别的流出嵌入,F~(A)\widetilde{\mathrm{F}}^{(\mathrm{A})}。然后我们采用具有 ReLu 激活函数的 Dense 层,以确保非负输出在未来时间间隔内生成 AP 级流的最终预测,F^(A)RN(A)×2(F^(A)[:,1]\widehat{\mathbf{F}}^{(\mathrm{ A})} \in \mathbb{R}^{N^{(A)} \times 2}\left(\widehat{\mathbf{F}}^{(\mathrm{A})}[:, 1 ]\right. 表示流入和 F^(A)[:,2]\widehat{\mathbf{F}}^{(\mathrm{A})}[:, 2] 表示流出),即

F^(A)[:,1]=ReLu( Dense (F~(A))),F^(A)[:,2]=ReLu( Dense (F~(A))).(28)\widehat{\mathbf{F}}^{(\mathrm{A})}[:, 1]=\operatorname{ReLu}\left(\text { Dense }\left(\widetilde{\mathbf{F}}^{(\mathrm{A})}\right)\right), \quad \widehat{\mathbf{F}}^{(\mathrm{A})}[:, 2]=\operatorname{ReLu}\left(\text { Dense }\left(\widetilde{\mathbf{F}}^{\prime(\mathrm{A})}\right)\right) . \tag{28}

4.2.3 多任务模型训练。

在训练 GAEFT 时,我们采用 Frobenius Norms (FNs) 来衡量预测的建筑物-集群转换的训练损失,即

L(T)=i=12bN(B)cN(C)(T^[b,c,i]T[b,c,i])2(29)\mathcal{L}^{(\mathrm{T})}=\sqrt{\sum_{i=1}^{2} \sum_{b}^{N^{(\mathrm{B})}} \sum_{c}^{N^{(\mathrm{C})}}(\widehat{\mathcal{T}}[b, c, i]-\mathcal{T}[b, c, i])^{2}} \tag{29}

并使用均方误差 (MSE) 来衡量预测的 AP 级人群流中的损失,即

L(F)=12N(A)i=12aN(A)(F^(A)[a,i]F(A)[a,i])2.(30)\mathcal{L}^{(\mathrm{F})}=\frac{1}{2 N^{(\mathrm{A})}} \sum_{i=1}^{2} \sum_{a}^{N^{(\mathrm{A})}}\left(\widehat{\mathrm{F}}^{(\mathrm{A})}[a, i]-\mathbf{F}^{(\mathrm{A})}[a, i]\right)^{2} . \tag{30}

如上所述,GAEFT 为多任务学习制定了一个联合损失函数,并联合最小化 L(T)\mathcal{L}^{(\mathrm{T})}L(F)\mathcal{L}^{(\mathrm{ F})} ,即

L=λ(T)L(T)+λ(F)L(F),λ(T)[0,1],λ(F)[0,1].(31)\mathcal{L}=\lambda^{(\mathrm{T})} \cdot \mathcal{L}^{(\mathrm{T})}+\lambda^{(\mathrm{F})} \cdot \mathcal{L}^{(\mathrm{F})}, \quad \lambda^{(\mathrm{T})} \in[0,1], \quad \lambda^{(\mathrm{F})} \in[0,1] . \tag{31}

通过上述公式,我们可以利用人群流动和转换的内在相关性,共同增强 GAEFT 在稀疏移动数据上的可学习性。

5 实验研究

我们首先在 Sec.5.1 中介绍实验设置,然后在 Sec.5.2 中提供实验结果。

5.1 实验评估设置

5.1.1 基线。 我们将 GAEFT 与以下四类基线方法进行比较。

a) 传统的时间序列方法: ★ GP:利用高斯过程(GP)和径向基函数(RBF)内核。 ★ ARIMA:利用自回归综合移动平均线 (ARIMA)。 b) 时间序列学习方法: ★ 循环神经网络/长短期记忆网络/门控循环单元(RNN/LSTM/GRU):我们将每个隐藏状态的维度设置为16,以预测时间序列。 ★ TPA-LSTM:利用具有时间关注的LSTM来预测多元时间序列[34]。我们将 LSTM 隐藏状态的大小设置为 128。 c) 空间学习方法: ★ CNN:使用7层卷积神经网络(CNN)来预测人群流动性。 ★ GCNN:图卷积神经网络(GCNN)[24]将邻接矩阵视为可训练矩阵,将历史值视为节点特征,以生成建筑物级流入/流出嵌入。 d) 时空学习方法: ★ ResNet:以建筑-集群转换矩阵为输入,采用三块时空残差神经网络[48],捕捉短期、中期和长期的移动模式。 ★ GEML:它利用基于网格嵌入的多任务学习[42]来生成建筑物级的流入/流出嵌入。 ★ LGNN:通过融合链接图卷积、节点图卷积和历史转移矩阵来利用线图神经网络[43]。 ★ CSTN:利用基于卷积嵌入式 LSTM 的方法形成上下文化时空网络 [27]。

5.1.2 实验设置。

对于所有方案,我们利用过去 24 小时内的人群流动数据来预测未来 1 小时内的建筑群转换和 AP 级流量。 我们根据 2020-10-11 至 2020-11-10(秋季学期)和 2021-02-02 至 2021-04-10(春季学期)的 Wi-Fi 关联数据评估模型性能。 在我们的实验研究中,我们通过在 30 分钟内消除解离和重新关联来减轻潜在的乒乓效应 [20](因为我们的时间间隔设置为 1 小时)。 训练数据包括秋季的前 26 天和春季的前 53 天数据,我们将其余数据留给模型测试。 我们训练了 200 次迭代的相似性传播算法,并获得了 21 个集群,如图 6 所示。 我们在具有 1 个 AMD Threadripper 3960X 24 核 CPU、128GB RAM 和 4 个 Nvidia GeForce RTX3090 的服务器上处理数据并进行模型训练。 我们的模型基于 TensorFlow 2.4.0 和 CUDA 11.1 构建。

除非另有说明,我们在 GAEFT 中默认使用以下参数。我们在时空聚类中设置 Eq.(2) 中的 𝛽 = 1。在亲和传播聚类中,我们将相似矩阵的对角线设置为其他条目的中值,并将阻尼因子设置为 0.9。我们设置建筑物级流入/流出嵌入的大小𝑤 = 12,并使用 𝑀 = 1 个空间注意力头和 𝑃 = 3 个时间注意力头。如第 4.1 节所述,我们对 3 个卷积层采用通道大小分别为 16、8 和 2 的 Conv2D 来编码历史转换。我们为多任务目标函数(方程(31))设置了λ(T)=1/16\lambda^{(\mathrm{T})}=1 / 16λ(F)=15/16\lambda^{(\mathrm{F})}=15 / 16。我们将批量大小设置为 64。我们将 L2 正则化应用于注意机制(等式(8)、(9)、(11)、(14)和(15))中的可训练参数矩阵,即 Qm(SP,Xm(Sp),Vm(sp),Qp(Tp),Xp(Tp), 和Vp(Tp)\mathbf{Q}_{m}^{(\mathrm{SP}}, \mathbf{X}_{m}^{(\mathrm{Sp})}, \mathbf{V}_{m}^{(\mathrm{sp})}, \mathbf{Q}_{p}^{(\mathrm{T} \mathrm{p})}, \mathbf{X}_{p}^{(\mathrm{T} \mathrm{p})}, \text { 和} \mathbf{V}_{p}^{(\mathrm{T} \mathrm{p})},其中正则化参数设置为0.05。我们在建筑物级流入/ 流出 embeddings (Eq.(7)) 是注意力模块的输入,dropout 率为 0.1。该模型由 Adam 优化器以 0.005 的学习率训练 5,000 次迭代。训练时间为 26 分钟,基于我们的默认值参数设置。根据我们的测试数据,每个目标时间间隔的平均推理时间为 4.47ms。

我们使用以下指标进行性能评估。 给定预测的建筑物-集群转换 T^r\widehat{\mathcal{T}}_{r} 和时间间隔 𝑟 的真值 Tr\mathcal{T}_{r}在测试集中的完全 𝑅 时间间隔内,我们将平均根平方误差 (ARSE(T)\operatorname{ARSE}^{(\mathrm{T})}) 定义为

ARSE(T)=1Rr=1R12N(B)N(C)i=12b=1N(B)c=1N(C)(T^r[b,c,i]Tr[b,c,i])2.(32)\operatorname{ARSE}^{(\mathrm{T})}=\frac{1}{R} \sum_{r=1}^{R} \sqrt{\frac{1}{2 N^{(\mathrm{B})} N^{(\mathrm{C})}} \sum_{i=1}^{2} \sum_{b=1}^{N^{(\mathrm{B})}} \sum_{c=1}^{N^{(\mathrm{C})}}\left(\widehat{\mathcal{T}}_{r}[b, c, i]-\mathcal{T}_{r}[b, c, i]\right)^{2}} . \tag{32}

我们通过 ARSE(T)\operatorname{ARSE}^{(\mathrm{T})} 和 Frobenius 范数(表示为 FNs;与 Eq.(29) 相同)评估对建筑物-簇转换的预测。 请注意,转换的 FN 表示所有建筑集群对上的预测和地面实况之间差异之和的平方根。 为了预测 AP 的流量,相应的 ARSE(F)\operatorname{ARSE}^{(\mathrm{F})} 公式为

ARSE(F)=1Rr=1R12N(A)i=12a=1N(A)(F^r(A)[a,i]Fr(A)[a,i])2(33)\operatorname{ARSE}^{(\mathrm{F})}=\frac{1}{R} \sum_{r=1}^{R} \sqrt{\frac{1}{2 N^{(\mathrm{A})}} \sum_{i=1}^{2} \sum_{a=1}^{N^{(\mathrm{A})}}\left(\widehat{\mathrm{F}}_{r}^{(\mathrm{A})}[a, i]-\mathrm{F}_{r}^{(\mathrm{A})}[a, i]\right)^{2}} \tag{33}

然后我们采用 ARSE(F)\operatorname{ARSE}^{(\mathrm{F})} 和 MSEs(与等式(30)相同)进行 AP 级流量预测。

5.2 实验结果

5.2.1 整体模型性能。

我们在表 2 中比较了不同算法的模型性能。总而言之,GAEFT 在转换(平均减少 26.6%)和流量(平均减少 41.7%)方面的总体误差低于基线模型。 对于四个基线类别,即传统时间序列方法、时间序列学习、空间学习和时空学习,GAEFT 平均分别提高了 56.2%、27.2%、25.8% 和 11.8% 的准确度 对于过渡预测,AP 级流量预测的平均值分别为 70.4%、33.6%、50.1% 和 31.3%。 在这里插入图片描述

具体而言,GP 和 ARIMA 等传统机器学习模型可能无法完全捕捉位置之间的空间相关性以及其邻域的时空特征。 RNN、LSTM、GRU 和 TPA-LSTM 等时间序列学习方法只能捕获每个建筑物的流入/流出特征的时间相关性。 关于空间学习方法,CNN 中的卷积操作侧重于构建-簇转换矩阵。 GCNN 将建筑物之间的空间相关性编码到图卷积网络的可训练邻接矩阵中,这可能会低估跨历史时间间隔的时间相关性。 从结果可以看出,仅仅使用时序学习或空间学习并不能完全捕捉到校园内复杂而稀疏的人群流动性。

在时空学习方面,ResNet 无法完全捕捉高度稀疏的构建到集群转换矩阵的特征。 GEML 将建筑物之间的地理距离和连通性作为图形聚合操作的建筑物相关性。然而,它的公式可能会丢弃 LSTM 结构中流入和流出的聚合空间特征。 LGNN通过链接图和节点图捕捉建筑物和集群之间的时空相关性,编码历史转换的信息。但是,LGNN没有考虑区分不同建筑物和时间特征的贡献。 CSTN 考虑了过渡模式的时空特征以及天气、工作日/周末等外部因素的影响。我们注意到,与 CSTN 相比,GAEFT 在转换预测方面略有改进。这很可能是因为 CSTN 还可能考虑不同建筑物对过渡的个别贡献并产生良好的准确性。然而,与 GAEFT 不同,CSTN 可能无法有效地考虑在集群级流入/流出嵌入中编码的建筑物邻域的时空相关性。此外,CSTN 可能无法完全捕捉 AP 级人群流量建模所必需的建筑特征,从而导致流量预测精度下降。

与上述模型不同,GAEFT 通过新颖的图聚合器捕获附近的空间相关性。此外,空间和时间注意机制共同学习整个建筑网络中的空间和时间相关性。 通过结合建筑集群的时空知识,进一步增强了建筑级流入/流出嵌入的提取。 因此,GAEFT 优于上述最先进的方法。

5.2.2 工作日/周末的影响。

我们在表 3 中将 GAEFT 与工作日和周末期间的其他基线和最新技术进行了比较,从中我们可以看到 GAEFT 在准确性和鲁棒性方面优于其他方案。 对于所研究的大多数模型,无论是建筑集群转换还是 AP 级流量,周末的准确度通常都高于工作日的准确度。 这可能是由于工作日的校园活动多于周末的活动,导致移动建模的移动模式更加复杂。 我们还注意到,由于建筑集群转换和 AP 级别的流程在周末和工作日表现出不同的模式(第 2.2 节),因此结合工作日指标等外部因素有助于保持 GAEFT 的准确性。

5.2.3 消融研究。

我们对 GAEFT 中的多个设计组件进行消融研究。 (a) GAEFT 主要组成部分的重要性:我们首先在图 13a 中研究 GAEFT 中的五个主要组成部分对转换(使用 FN)和流(使用 MSE)的影响。 我们将 GAEFT(表示为 w/all)与其移除每个组件的变体进行比较:(i)集群级流入/流出嵌入(无集群),(ii)空间和时间注意力(无 st attn), (iii) 空间注意 (w/o s attn), (iv) 时间注意 (w/o t attn), (v) 外部因素 (w/o ext), 和 (vi) 历史转变 (w/o ht )。 结果基于 2021 Spring 训练集中 53 天数据的最后 7 天数据。

我们可以看到所有五个组件都有助于提高模型性能。 在转换预测(FN)方面,我们可以观察到历史转换(第 4.1 节)、时空聚类(第 3.2 节)和时空注意力(第 3.4 节)贡献最大。 历史转变和集群建筑有助于缓解人群流动数据中的稀疏性,而时空注意力特别提高了集群和建筑物之间全局相关性的可学习性。 在流量预测(MSE)方面,我们可以看到时空聚类(第 3.2 节)和时空注意(第 3.4 节)带来了最显着的改进。 由于人群流动和过渡中更复杂的时间动态,时间注意在过渡和流动方面提供了比空间注意稍多的改进。 在这里插入图片描述

(b) 多任务学习的有效性:我们通过仅使用构建集群转换预测(表示为“w/o f”,即𝜆(F))训练和测试模型来进一步研究 GAEFT 的多任务学习的有效性 = 0)并且只有 AP 级别的流量预测(表示为“w/o tr”,即𝜆(T) = 0)。 结果基于 2020 Fall 训练集中 26 天数据的最后 5 天数据。 图 13b 显示多任务学习增强了关于人群流动和转换的预测。 流入/流出是从到达/离开每个位置的所有转换汇总而来的,因此与这些转换具有内在相关性。 我们的 GAEFT 结合了这种相关性,因此提高了预测准确性。

5.2.4 敏感性研究。

我们基于 2021 年春季训练集中 53 天数据的最后 7 天数据,对图 14 中的四个重要参数进行敏感性研究。 在这里插入图片描述

图 14a 显示了 FN 和 MSE 与图聚合器中的建筑物级流入/流出嵌入的大小,𝑤 (𝑤 ∈ {6, 12, 18, 24})。当嵌入尺寸较小(例如,6)时,它可能无法捕获足够的移动性信息,因此精度较低。随着 𝑤 的增加,GAEFT 的准确性提高。然而,随着 𝑤 的进一步增加,可能会捕获噪声信息并降低性能。基于上述,我们设置 𝑤 = 12 以在我们的多任务学习中保持整体的高精度。

图 14b 显示了 FN 和 MSE 与空间注意力头数的关系,𝑀 (𝑀 ∈ {1, 2, 3, 4})。我们可以看到,预测误差随着 𝑀 的增加而增加,这主要是由于额外但冗余的注意力头捕获的更多嘈杂的空间移动性信息。因此,我们默认设置𝑀 = 1。

图 14c 进一步显示了给定不同数量的时间注意力头的预测误差,即 𝑃 ∈ {1, 2, 3, 4}。随着 𝑃 的增加,GAEFT 能够捕获更多信息并区分不同时间间隔之间的嵌入,从而提高性能。然而,随着 𝑃 的进一步增加,可能会从人群流动性数据中学习到更多嘈杂的特征,因此 GAEFT 的误差会增加,显示出收益递减。因此,我们默认设置𝑃 = 3。

除此之外,我们在图 14d 中评估了历史区间数量(表示为𝐾)的影响。 我们可以观察到,在时间窗口太短或太长的情况下,GAEFT 可能会产生较大的误差。 当 𝐾 = 24 个时间间隔时,历史时间间隔可以为模型学习提供足够的信息。

5.2.5 可视化。

我们进一步可视化 GAEFT 的评估结果。 (a) 空间和时间注意权重:我们在上午 11 点至下午 12 点可视化所有建筑物的流出嵌入的空间注意头的权重,即 αk,1(Sp)\boldsymbol{\alpha}_{k, 1}^{(\mathrm{Sp})}(第 3.4 节中的方程 (10)) 图 15a) 和 0am-1am (图 15b) 分别在同一个星期五。 空间注意机制根据建筑物的移动模式来区分建筑物的空间特征。 较高的αk,1(Sp)[𝑏]\boldsymbol{\alpha}_{k, 1}^{(\mathrm{Sp})}[𝑏] 表示建筑物 𝑏 的特征对最终预测的贡献更大。 我们可以看到建筑物之间的重量差异随时间而变化,并且在白天比在午夜更显着。 这主要是因为所有建筑物的人流在夜间都很少,而在白天则偏向校园中心。 比较图 15 和图 2,我们还可以看到,流量较高的建筑物具有较大的注意力权重(因此更重要)。 在这里插入图片描述

我们选择第一个时间注意力头用于构建级流出嵌入,并说明它的时间注意力权重,即 αk,1(Tp)[b]\boldsymbol{\alpha}_{k, 1}^{\prime(\mathrm{Tp})}[b](第 3.4 节中的等式(15)),在图 15c 中。具体来说,我们在要预测的目标时间间隔(2021 年 3 月 27 日凌晨 0 点至凌晨 1 点)之前的 24 小时(k{1,,24}k \in\{1, \ldots, 24\})中的每个小时显示注意力权重。我们注意到αk,1(Tp)[b]\boldsymbol{\alpha}_{k, 1}^{\prime(\mathrm{Tp})}[b] 表示时间间隔 𝑘 的建筑物级流出嵌入在所有 24 个历史时间间隔中的重要性,值越高表示 𝑘 与目标时间之间的相关性越高间隔。我们可以在图 15c 中看到在两个时间接近度级别(即大约 6 小时和 24 小时)期间更高的注意力权重,这主要是由于周期性的旅行习惯和校园活动。 在这里插入图片描述

(b) 过渡和流量预测:我们在图 16 和 17 中进一步可视化了两个案例,其中预测和地面实况在建筑物集群过渡和 AP 级流量方面。动态过渡/流量数据的展示准确性验证了我们的模型设计的有效性。

6 相关工作

我们从以下三个方面回顾了相关工作。 (a) 流量/过渡预测:预测人群流量已成为许多城市应用的基本任务[16–18]。Zhang等人[48]的一项开创性研究通过时空残差网络预测了不同城市区域的流入/流出。Lin等人进一步开发了一种上下文感知时空神经网络,用于大都市人群流量预测[25]。Pan等人提出了一种深度元学习方法来预测城市交通流[31]。Jiang等人通过一个在线系统实现了对大型活动人群动态的预测,该系统仅根据当前观察结果预测了短期内的趋势[21]。最近,出行时间估计[37]和出行需求预测[29]考虑了起点-目的地过渡预测。尽管获得了准确度,但之前的研究[10、19、42]无法完全区分时空稀疏性和偏斜性的不同影响。此外,现有的流/转换研究中,很少有研究联合利用流和转换来缓解数据的稀疏性。我们的GAEFT通过使用Wi-Fi关联数据,填补了研究流/过渡预测性多任务人群分析的空白。为了进一步缓解过渡中的稀疏性和偏斜问题,我们提出了一种新的基于建筑物地理位置和过渡模式的建筑物聚类技术。与[23]不同的是,我们设计了一种基于亲和传播的时空聚类算法,将建筑物分组为簇,并准确预测建筑物和簇之间的人群转移。 (b) 图形神经网络:图形神经网络的传统图形嵌入方法通常基于空间贴近度表征位置之间的相关性[44]。然而,现有的方法[22,41,49]通常侧重于通过相邻节点的节点特征之间的相关性或向周围节点的扩散过程在本地捕获的图形嵌入,而对整个图形网络的全局影响尚未得到充分考虑,使得难以捕获大学校园等宽敞城市站点上的流动模式。虽然针对不同的移动性应用研究了多图方法[8,26],但它们不能有效地反映时空聚类所引入的层次结构(AP/建筑物/集群)。相反,我们提出了一种新的时空图形注意嵌入机制,以捕获和区分局部和全局范围内的时空相关性,从而增强复杂人群流动数据的可学习性。 (c) 用于移动分析的Wi-Fi:随着移动设备的普遍采用,已经针对各种智能移动应用程序研究了Wi-Fi网络数据[12-15]。Sapiezynski等人利用Wi-Fi数据推断人与人之间的距离[32]。Traumuel等人利用Wi-Fi探测数据,通过对不同街道段的网络分析,对城市运动进行了建模[38]。Zhou等人通过Wi-Fi传感数据的数据挖掘分析了社交活动中的人群行为[50]。我们没有追踪侵犯隐私的个人[39],而是专注于利用Wi-Fi关联和分离数据来预测人群的时空转换和流动,我们的案例研究见解和发现将有助于实现积极准确的人群流动分析和管理。

7 部署讨论

我们从以下三个方面讨论GAEFT的部署。 a) 隐私:通过我们的数据预处理,所有与用户相关的敏感信息都已被删除,关联/解除关联和转换均已在进一步数据分析之前进行汇总。在这项工作中,我们旨在预测转移和流动的集体和总数量,而不是分析个人的移动模式,从而保护用户隐私。我们的项目已经过大学内部审查委员会 (IRB) 的审查,由于没有隐私问题,因此不需要 IRB 批准。进一步的隐私保护增强与我们在这里的研究正交,可以参考 [5, 7]。

b) COVID-19 大流行的影响:我们注意到,尽管大流行在 2020-2021 学年对我们的校园产生了影响,但学生、教职员工仍然可以进入教学楼。我们在本研究中的核心模型设计是通用的,可以应用于大流行后收集的人群流动和过渡。在我们未来的工作中,将考虑从 COVID-19 大流行之前、期间和之后收集的 Wi-Fi 数据进一步深入研究人群流动模式的变化。

c) 其他因素的结合:在这项工作中,我们使用天气条件和周末/节假日作为外部因素。其他因素,例如在建筑物/教室中举行的各种校园活动,可能会影响过渡和流动[3]。我们将在未来的工作中进一步纳入这些因素。

8 结论

我们提出了 GAEFT,这是一种新颖的多任务图注意力神经网络,用于基于集体校园 Wi-Fi 关联数据预测人群转移和流动。 通过人群分析,除了人群转移和流动的复杂时空特征外,我们还发现了人群流动数据中的稀疏性和偏度。 为了解决这个问题,我们设计了一种新颖的地理聚类来将建筑物分组为具有相似过渡特征的邻域,以及一种新颖的基于注意力的图神经网络,它可以捕获建筑物之间的空间和时间相关性。 GAEFT 联合预测建筑物和集群之间的过渡,以及建筑物中 AP 的流动。 广泛的实验研究证实了 GAEFT 在预测动态、复杂和稀疏的过渡和流动方面的准确性。