从Transformer到基础模型:时空预测技术全景解读

20 阅读12分钟

从Transformer到基础模型:时空预测技术全景解读

本文基于ACM Computing Surveys 2025年发表的综述论文《A Survey on Spatio-Temporal Prediction: From Transformers to Foundation Models》,系统梳理时空预测领域的最新进展。


什么是时空预测?为什么它如此重要?

想象一下:

  • 早高峰时,导航软件精准预测15分钟后的路况
  • 气象台提前一周预警台风路径
  • 自动驾驶汽车预判行人的下一步动作

这些场景背后,都离不开时空预测(Spatio-Temporal Prediction) 技术。

时空数据是同时包含时间维度空间维度信息的数据。随着物联网传感器的普及和智能设备的爆发式增长,我们正处于一个时空大数据时代。从交通流量、天气变化到人体运动,时空预测在众多领域扮演着关键角色。

ST data classification, prediction methods, and application domains

时空数据的核心挑战

时空数据的复杂性体现在三个方面:

  1. 动态时间序列:数据随时间不断变化
  2. 空间相关性:不同位置的数据相互影响
  3. 复杂非线性关系:传统线性模型难以捕捉

传统统计方法(如ARIMA)和早期机器学习算法往往假设数据独立,难以有效捕捉时空关联。这正是深度学习,尤其是Transformer架构大显身手的地方。


为什么Transformer成为时空预测的"王者"?

深度学习方法演进史

FIGURE TO DRAW: 时空预测方法演进时间线

时空预测方法经历了几个关键阶段:

时期主流方法特点局限性
早期ARIMA、统计方法简单、可解释假设线性,无法处理复杂依赖
2010sRNN/LSTM能处理时序数据长序列梯度消失,难以并行
2014+CNN提取空间特征局部感受野,远距离依赖差
2017+Transformer全局注意力,并行计算计算复杂度高
2022+基础模型通用表示,迁移能力强资源消耗大

Transformer的三大优势

  1. 全局依赖建模:自注意力机制可以直接连接序列中任意两个位置,不受距离限制

  2. 并行计算能力:不像RNN需要逐步处理,Transformer可以同时处理整个序列

  3. 灵活的架构设计:编码器-解码器结构可以根据任务需求灵活调整

实践提示:注意力机制的计算代价

标准自注意力的时间复杂度为 O(N²d),其中N是序列长度,d是隐藏层维度。当处理长时间序列或高分辨率空间数据时,显存消耗会急剧增加。实践中常用的解决方案包括:

  • 稀疏注意力(Sparse Attention)
  • 线性注意力(Linear Attention)
  • 滑动窗口注意力

在8GB显存的GPU上,标准注意力通常只能处理约2000-4000长度的序列。


综述的核心分类体系

这篇综述提出了一个清晰的三层分类框架,将基于Transformer的时空预测模型分为三大类:

A comprehensive taxonomy of Transformers for ST prediction in background, techniques and methods, application domains, model evaluation, and future directions

第一类:模块增强(Module Enhancement)

在保持Transformer基本架构不变的前提下,对核心模块进行改进。

1. 自注意力机制改进
改进类型核心思想代表方法
稀疏注意力限制注意力范围,减少计算量滑动窗口、随机采样
线性注意力重排计算顺序,实现线性复杂度自适应注意力
多头注意力多个注意力头学习不同模式标准配置,可调整头数
2. 位置编码增强

原始Transformer使用固定的正弦位置编码,但对于时空数据,我们需要更灵活的方案:

  • 动态位置编码:可学习的位置参数,随训练更新
  • 相对位置编码:编码元素间的相对距离而非绝对位置
  • 层次位置编码:不同层级使用不同的编码策略
  • 多模态位置编码:为不同类型的输入设计专门的编码
3. 前馈网络与归一化
  • 激活函数:从ReLU到GELU、GLU
  • 归一化策略:LayerNorm → GroupNorm → InstanceNorm
  • 残差连接:可学习的残差权重

The architecture of Vanilla Transformer and its main variants

第二类:架构调整(Architecture Adjustment)

对Transformer的整体结构进行更大幅度的修改。

1. 层次化架构

将输入序列分层处理,从细粒度到粗粒度逐步聚合:

原始特征 → 初级Transformer → 聚合 → 高级Transformer → 最终输出

代表模型:

  • Informer:通过最大池化层降低时间维度
  • Deepnet:跨尺度注意力机制
2. 附加模块集成

最常见的是与图神经网络(GNN)的结合:

方案一:GNN作为独立模块

  • GNN负责空间依赖
  • Transformer负责时间依赖
  • 代表:GraphTrans

方案二:GNN与注意力深度融合

  • 在注意力计算中引入图结构信息
  • 代表:Graphformers、Crossformer

工程实践提示:如何选择架构?

  • 如果数据有明确的图结构(如交通网络、社交网络)→ 优先考虑GNN+Transformer
  • 如果数据是规则网格(如气象栅格数据)→ CNN+Transformer或纯Transformer
  • 如果序列特别长 → 层次化架构 + 稀疏注意力
  • 资源受限场景 → 优先模块增强,避免复杂架构

第三类:基础模型(Foundation Models)

基础模型通过大规模预训练获取通用表示能力,然后微调适应下游任务。

纯文本输入方式
策略描述代表模型
数值作为数值直接将时序数据作为数值输入TimeGPT、TimesFM
数值作为Token将数值离散化为类别标签TDML(金融领域)
文本对齐通过对比学习将时序与文本对齐Time-LLM、TEST
多模态输入方式
策略描述代表模型
纯视觉将时空数据转为图像PanGu、FengWu
多模态对齐文本引导多模态数据理解ImageBind、PandaGPT

实践提示:基础模型的选择

  • 零样本/少样本任务:优先考虑基础模型
  • 领域数据充足:传统Transformer可能更高效
  • 实时推理要求:基础模型通常太重,考虑蒸馏或模块增强方法
  • 计算资源:FengWu等大模型需要32张A100训练17天

三大核心应用领域详解

领域一:城市交通

交通预测是时空预测最成熟的应用场景,包括:

  • 交通流量预测
  • 车速预测
  • 拥堵检测
  • 行人流量预估
代表模型对比
模型核心特点优势局限
Traffic Transformer多种位置编码策略捕捉全局-局部时间依赖未考虑空间相关性
Lastjormer时空联合注意力线性注意力,计算高效可解释性差
ASTGCN层次化注意力整合短期/日/周周期依赖缺乏外部信息融合
CorrSTN空间/时间相关信息考虑变量相关性模型结构复杂
常用数据集
数据集规模时间范围采样间隔
METR-LA207传感器2012.3-65分钟
PEMS-BAY325检测器2017.1-55分钟
PeMSD4307检测器59天5分钟
LargeST8600传感器5年-

实践提示:交通预测的数据泄露陷阱

时空数据的划分需要特别注意:

  1. 时间泄露:训练集不能包含测试时间段之后的数据
  2. 空间泄露:如果使用邻接矩阵,确保测试节点的邻居信息处理正确
  3. 周期性:按时间顺序划分,而非随机划分

推荐划分比例:7:1:2(训练:验证:测试),按时间顺序切分

领域二:气候监测

气象预测对各行业和公共健康至关重要:

  • 天气预报
  • 降水预测
  • 风速预测
  • 空气质量预测
代表模型对比
模型类型核心创新参数量
AirFormer模块增强引入潜在随机变量246K
Earthformer架构调整立方体注意力机制3.61M
ClimaX基础模型Vision Transformer7.76M
FengWu基础模型多模态多任务4.53G

FengWu是目前最强大的气象预测模型之一,但训练成本极高(32×A100,17天)。

常用数据集
  • ERA5:欧洲中期天气预报中心的全球大气再分析数据,覆盖1979年至今
  • CMIP6:全球气候模型对比项目数据,用于气候变化研究

领域三:运动预测

运动预测包括两个主要方向:

1. 轨迹预测

  • 行人轨迹预测
  • 车辆轨迹预测
  • 无人机路径规划

2. 人体动作预测

  • 3D人体姿态预测
  • 动作识别与预测
  • 骨骼运动预测
代表模型对比
模型任务核心特点优势
TrajFormer轨迹分类语义位置编码精确经纬度处理
SGTN行人轨迹多模态预测融合多模态特征
STCT人体运动交叉Transformer时空特征连贯性
BEVGPT自动驾驶鸟瞰图输入输入简洁直观
常用数据集

轨迹预测

  • ETH/UCY:行人轨迹数据集,包含5个场景
  • Waymo:自动驾驶场景,含LiDAR和图像标注

人体运动

  • Human3.6M:大规模3D人体姿态数据集
  • PoseTrack:视频中的人体姿态跟踪

模型评估:指标与性能分析

常用评估指标

指标英文全称适用场景解释
MAEMean Absolute Error通用平均绝对误差,越小越好
RMSERoot Mean Squared Error通用均方根误差,对大误差敏感
MAPEMean Absolute Percentage Error通用平均绝对百分比误差
ADEAverage Displacement Error轨迹预测所有时间步的平均欧氏距离
FDEFinal Displacement Error轨迹预测最终时间步的欧氏距离
MPJPEMean Per Joint Position Error人体姿态关节点平均位置误差

METR-LA数据集性能对比

模型15分钟30分钟60分钟
Vanilla Transformer2.98/6.04/8.883.65/7.03/9.644.25/7.96/12.41
Traffic Transformer2.43/4.73/6.572.79/5.61/7.453.28/6.68/9.08
Lastjormer2.64/5.11/6.742.99/6.01/8.133.36/7.03/9.67

格式:MAE/RMSE/MAPE(%)

关键发现:Traffic Transformer通过多种位置编码策略,在各时间尺度上都取得最佳性能。

实践提示:基线选择建议

  1. 必须包含的基线
    • Vanilla Transformer(证明改进有效)
    • 领域内SOTA模型(如交通用ASTGCN)
    • 简单基线(如Historical Average)
  2. 公平对比原则
    • 相同的数据划分
    • 相同的输入窗口和预测窗口
    • 相同的超参数搜索预算
  3. 避免的陷阱
    • 只在单一数据集上报告结果
    • 选择性报告最好的预测步长
    • 忽略模型复杂度和推理速度

五大未来研究方向

方向一:低质量时空数据预测

问题:实际场景中数据常有缺失、噪声和错误,但大多数研究使用高质量公开数据集。

研究方向

  • 缺失值感知的预测框架
  • 噪声鲁棒的注意力机制
  • 分布外(OOD)场景的泛化

方向二:模型压缩与实时性

问题:Transformer模型参数量大,难以部署到边缘设备,实时性不足。

研究方向

  • 低秩近似 + 结构化剪枝
  • 知识蒸馏
  • 混合专家(MoE)架构(受DeepSeek启发)

模型压缩技术对比图

方向三:可解释性与可信度

问题:深度学习模型被视为"黑箱",用户难以理解预测依据。

研究方向

  • Relevance Rollout可视化
  • 注意力权重解释
  • 物理模型与数据驱动模型融合

方向四:模型泛化能力

问题:模型容易在特定数据集上过拟合,难以迁移到新场景。

研究方向

  • 大规模预训练
  • 因果推理增强(如NuwaDynamics)
  • 数据增强策略
  • 多源多任务学习

方向五:外部信息融合

问题:仅靠历史时空数据难以捕捉所有影响因素。

可融合的外部信息

  • 物理规律约束
  • 地理位置特征
  • 地形地貌数据
  • 气候特征
  • 卫星遥感数据

融合方式

  • 多模态融合
  • 结构化注意力机制
  • 定制神经网络结构

你应该记住的5件事

1. 时空预测的本质

时空预测需要同时建模时间依赖空间关联,传统方法难以处理这种复杂的非线性关系。

2. Transformer的核心优势

自注意力机制能够捕捉全局依赖,并行计算带来效率提升,灵活架构支持多种变体

3. 三类改进范式

  • 模块增强:改进注意力、位置编码等模块
  • 架构调整:层次化结构、GNN融合
  • 基础模型:大规模预训练 + 微调

4. 应用领域各有特点

  • 交通预测:图结构明显,GNN+Transformer常见
  • 气象预测:数据量大,基础模型潜力大
  • 运动预测:需要多模态信息融合

5. 未来趋势

从追求精度转向实用性——低质量数据处理、模型压缩、可解释性是重要方向。


资源汇总

论文信息

  • 标题:A Survey on Spatio-Temporal Prediction: From Transformers to Foundation Models
  • 期刊:ACM Computing Surveys, Volume 58, Issue 4 (March 2026)
  • DOIdoi.org/10.1145/376…

代码与数据

主要数据集链接

  • METR-LA / PEMS系列:加州交通部PeMS系统
  • ERA5:欧洲中期天气预报中心
  • ETH/UCY:行人轨迹基准数据集
  • Human3.6M:大规模人体姿态数据集

作者说明:本文是对ACM Computing Surveys 2025年综述论文的解读与扩展,旨在帮助入门至研究生水平的读者快速了解时空预测领域的Transformer技术发展。如需深入研究,建议阅读原论文及其引用文献。


更多资源获取欢迎关注我的公众号:「木子吉星」