深度学习乐园具有用于时间序列预测的自适应路径的多尺度转换器

159 阅读38分钟

本项目来源于深度学习乐园。如果你想要完整项目资料包,点击这里下载: pan.baidu.com/s/1-vA1Gce4…

项目源码获取方式见文章末尾! 600多个深度学习项目资料,快来加入社群一起学习吧。

《------往期经典推荐------》

项目名称 1.【基于CNN-RNN的影像报告生成】 2.【卫星图像道路检测DeepLabV3Plus模型】 3.【GAN模型实现二次元头像生成】 4.【CNN模型实现mnist手写数字识别】 5.【fasterRCNN模型实现飞机类目标检测】 6.【CNN-LSTM住宅用电量预测】 7.【VGG16模型实现新冠肺炎图片多分类】 8.【AlexNet模型实现鸟类识别】 9.【DIN模型实现推荐算法】 10.【FiBiNET模型实现推荐算法】 11.【钢板表面缺陷检测基于HRNET模型】 …

Abstract 基于Transformer的模型在时间序列预测方面取得了一些成功。现有的方法主要从有限或固定尺度对时间序列进行建模,因此很难捕捉跨越不同尺度的不同特征。在本文中,我们提出了具有自适应通路的多尺度变压器(Pathformer)。所提出的Transformer集成了时间分辨率和时间距离,用于多尺度建模。多尺度划分使用各种大小的斑块将时间序列划分为不同的时间分辨率。根据每个量表的划分,对这些补丁进行双重关注,以捕获全局相关性和局部细节作为时间依赖关系。利用自适应路径进一步丰富了多尺度变压器,根据输入时间序列中不同的时间动态自适应调整多尺度建模过程,提高了Pathformer的预测精度和泛化性。对11个真实世界数据集的广泛实验表明,Pathformer不仅超越了所有当前模型,实现了最先进的性能,而且在各种传输场景下表现出更强的泛化能力。

在这里插入图片描述

1介绍 时序预测是能源、金融、交通、云计算等各个行业必不可少的任务。由于其在序列建模中的广泛应用以及在CV和NLP等各个领域的成功,Transformer在时间序列中受到新兴的关注。尽管性能不断提高,但最近的工作已经开始挑战Transformers的现有时间序列预测设计,提出了具有更好性能的更简单的线性模型。虽然变形金刚的能力在时间序列预测(?)方面仍然很有前途,但它需要更好的设计和调整来发挥其潜力。 真实世界的时间序列在不同的时间尺度上表现出不同的变化和波动。例如,云计算中CPU、GPU和内存资源的利用揭示了跨越每日、每月和季节性尺度的独特时间模式。这需要时间序列预测的多尺度建模,它从各种尺度的时间间隔中提取时间特征和依赖关系。对于时间序列中的多个尺度,需要考虑两个方面:时间分辨率和时间距离。时间分辨率对应于我们如何看待模型中的时间序列,并确定考虑建模的每个时间块或单元的长度。在图??中,相同的时间序列可以分为小块(蓝色)或大块(黄色),从而产生细粒度或粗粒度的时间特征。时间距离对应于我们如何显式地对时间依赖关系进行建模,并确定时间建模所考虑的时间步长之间的距离。在图??中,黑色箭头对附近时间步长之间的关系进行建模,形成局部细节,而彩色箭头对长距离的时间步长进行建模,形成全局相关性。 为了进一步探索在Transformers中提取相关性以进行时间序列预测的能力,本文重点介绍了使用Transformer架构增强多尺度建模的方面。两个主要挑战限制了Transformer中有效的多尺度建模。第一个挑战是多尺度建模的不完整性。从不同的时间分辨率查看数据会隐式影响后续建模过程的规模。然而,简单地改变时间分辨率并不能明确有效地强调各种范围内的时间依赖关系。相反,考虑不同的时间距离可以对不同范围的依赖关系进行建模,例如全局和局部相关性(?)。然而,全局和局部间隔的确切时间距离受到数据划分的影响,从时间分辨率的单一视图来看,数据划分是不完整的。第二个挑战是固定的多尺度建模过程。尽管多尺度建模可以更全面地理解时间序列,但不同的序列会根据其特定的时间特征和动态选择不同的尺度。例如,比较图??中的两个系列,上面的系列显示出快速波动,这可能意味着更关注细粒度和短期特性。相反,下面的系列可能需要更多地关注粗粒度和长期建模。所有数据的固定多尺度建模阻碍了对每个时间序列关键模式的掌握,并且手动 *Correspondingauthor 

 Time  Time Figure1:左图:时间序列被划分为不同大小的斑块作为时间分辨率。蓝色、橙色和红色的间隔表示不同的斑块大小。右图:局部细节(黑色箭头)和全局相关性(彩色箭头)通过不同的时间距离进行建模。 调整数据集或每个时间序列的最佳尺度既费时又难处理。解决这两个挑战需要自适应多尺度建模,它自适应地对来自某些多个尺度的当前数据进行建模。 受上述对多尺度建模的理解的启发,我们提出了用于时间序列预测的具有自适应路径的多尺度转换器(Pathformer)。为了实现更完整的多尺度建模能力,我们提出了一个统一多尺度时间分辨率和时间距离的多尺度Transformer模块。提出多尺度划分,将时间序列划分为不同大小的斑块,形成不同时间分辨率的视图。基于划分的补丁的每个大小,提出了包含补丁间和补丁内注意的双重注意来捕获时间依赖关系,补丁间注意捕获跨补丁的全局相关性,补丁内注意捕获单个补丁中的局部细节。我们进一步提出了自适应路径来激活Transformer的多尺度建模能力,并赋予其自适应建模特性。在模型的每一层,多尺度路由器根据输入数据自适应选择特定大小的斑块分割和随后的双关注,从而控制多尺度特征的提取。我们为路由器配备了趋势和季节性分解功能,以增强其掌握输入的时间动态的能力。路由器与聚合器协同工作,通过加权聚合自适应地组合这些多尺度特征。逐层路由和聚合构成了整个Transformer多尺度建模的自适应路径。据我们所知,这是第一项引入自适应多尺度建模进行时间序列预测的研究。具体而言,我们做出以下贡献: •我们提出了一种多尺度的Transformer架构。它整合了时间分辨率和时间距离两个视角,使模型具备了更完整的多尺度时间序列建模能力。 •我们进一步提出了多尺度变压器中的自适应路径。具有时间分解功能的多尺度路由器与聚合器协同工作,根据输入数据的时间动态自适应提取和聚合多尺度特征,实现时间序列的自适应多尺度建模。 •我们在不同的真实世界数据集上进行了广泛的实验,并实现了最先进的预测准确性。此外,我们进行了跨数据集的迁移学习实验,以验证模型的强泛化性。 2相关工作 时间序列预测。时间序列预测涉及根据历史观测结果预测未来时间序列。基于指数平滑及其不同风格的统计建模方法可以作为时间序列预测的可靠主力。在深度学习方法中,GNN用于对相关时间序列预测的空间依赖性进行建模。引入RNN来模拟时间依赖。DeepAR使用RNN和自回归方法来预测未来的短期序列。CNN模型使用时间卷积来提取子系列特征。TimesNet将原始的一维时间序列转换为二维空间,并通过卷积捕获多周期特征。MLP在该领域也显示出简单而有效的应用。此外,一些方法还结合了神经架构搜索来发现最佳架构。 最近,变压器模型在时间序列预测中受到越来越多的关注。Informer提出了概率稀疏的自注意力来选择重要键,Triformer采用了三角形架构,从而降低了复杂性。Autoformer提出了自相关机制来取代自注意力来模拟时间动力学。FEDformer利用频率角度的傅里叶变换来模拟时间动力学。然而,研究人员对Transformers在时间序列预测方面的有效性提出了担忧,因为简单的线性模型被证明是有效的,甚至优于以前的Transformers。同时,PatchTST采用Transformer的补丁和通道独立性来有效提升性能,表明Transformer架构在适当适配时间序列预测方面仍有其潜力。 时间序列的多尺度建模。在计算机视觉和多模态学习等领域,多尺度特征建模被证明是有效的,而在时间序列预测中,这种探索相对较少。N-HiTS采用多速率数据采 

 Figure2:Pathformer的架构。多尺度变压器块(MST块)包括具有多种补丁大小和双重关注的贴片划分。自适应路径选择具有路由器生成的前K权重的补丁大小,以捕获多尺度特征,所选补丁大小以蓝色表示。然后,聚合器将加权聚合应用于从MST块获得的特征。 样和分层插值对不同分辨率的特征进行建模。Pyraformer引入了金字塔注意,以提取不同时间分辨率的特征。Scaleformer(?)提出了一个多尺度框架,并且需要在不同的时间分辨率下分配预测模型会导致更高的模型复杂性。与这些使用固定尺度且无法自适应改变不同时间序列的多尺度建模的方法不同,我们提出了一种具有自适应路径的多尺度Transformer,该方法可基于不同的时间动态自适应地模拟多尺度特征。 3方法论 为了有效地捕捉多尺度特征,我们提出了具有自适应路径的多尺度Transformer(称为Pathformer)。如图??所示,整个预测网络由实例范数、自适应多尺度块(AMS块)堆叠和Predictor组成。实例范数是一种归一化技术,用于解决训练和测试数据之间的分布偏移。Predictor是一个完全连接的神经网络,由于它适用于长序列的预测而提出。 我们设计的核心是用于多尺度特征自适应建模的AMS模块,它由多尺度Transformer模块和自适应路径组成。受《变形金刚》中补丁思想的启发,多尺度变压器块通过引入具有多个补丁大小的补丁划分和对分割的补丁的双重关注来集成多尺度时间分辨率和距离,使模型具备全面模拟多尺度特征的能力。基于Transformer模块中多尺度建模的各种选项,适应性通路利用多尺度建模能力,并赋予其自适应建模特性。多尺度路由器根据输入数据在Transformer中选择特定大小的斑块分割和随后的双关注,从而控制多尺度特征的提取。路由器与聚合器配合使用,通过加权聚合来组合这些多尺度特征。逐层路由和聚合构成了整个Transformer模块中多尺度建模的自适应路径。在以下部分中,我们将详细描述多尺度Transformer模块和AMS模块的自适应路径。 3.1多尺度变压器块 多尺度划分。为了符号的简单性,我们使用单变量时间序列进行描述,通过独立考虑每个变量,该方法可以很容易地扩展到多变量情况。在多尺度Transformer模块中,我们将M个补丁大小值的集合定义为S={S1,...,SM},每个补丁大小S对应一个补丁划分操作。对于输入时间序列X∈RH×d,其中H表示时间序列的长度,d表示特征的维度,每个具有补丁大小的补丁划分操作S将X划分为P(带P=H/S)个补丁,(X1,X2,...,XP),其中每个补丁Xi∈RS×d包含S时间步长。集合中不同的图块大小会导致不同比例的分割图块,并给出输入序列的时间分辨率的不同视图。这种多尺度划分与下面描述的双注意力机制配合使用,用于多尺度建模。 双重关注。基于每个尺度的斑块划分,我们建议对划分的斑块进行建模时间依赖性。为了掌握不同时间距离的时间依赖关系,我们利用斑块划分作为不同时间距离的指导,双重注意力机制包括每个分割斑块内的补丁内注意力和不同补丁之间的补丁间注意力,如图??(a)所示。 

 … … patchx1patchxp

(a)Multi-ScaleTransformerBlock   Routing RoutingPathSelection  RoutingWeights  Trend  

IDFT

   DFT   (b)Multi-ScaleRouter Figure3:(a)多尺度变压器块的结构,主要由贴片划分、贴片间注意力和贴片内注意组成。(b)多尺度路由器的结构。 考虑一组补丁(X1,X2,...,XP)除以补丁大小S,补丁内注意在每个补丁内的时间步长之间建立关系。对于第i个补丁Xi∈RS×d,我们首先沿着特征维度嵌入补丁d以获得 XEQ * jc3 * hps13 \o\al(\s\up 3(i),i)ntra∈RS×dm,其中dm表示嵌入的维度。然后,我们对XEQ * jc3 * hps13 \o\al(\s\up 3(i),intra)进行可训练的线性变换, 以获得注意力运算中的键和值,表示为KEQ * jc3 * hps13 \o\al(\s\up 3(i),i)ntra,Vitra∈RS×dm。我们采用可训练的查询矩 阵QEQ * jc3 * hps13 \o\al(\s\up 3(i),intra)∈R1×dm来合并补丁的上下文,然后计算QEQ * jc3 * hps13 \o\al(\s\up 3(i),intra),KEQ * jc3 * hps13 \o\al(\s\up 3(i),i)ntra,Vitra之间的交叉注意力,以对第i个补丁中的局部细节进行建模: AttnEQ * jc3 * hps13 \o\al(\s\up 4(i),intra)=Softmax(QEQ * jc3 * hps13 \o\al(\s\up 3(i),intra)(KEQ * jc3 * hps13 \o\al(\s\up 3(i),i)ntra)T/√dm)Vitra.(1) 在补丁内注意后,每个补丁都已从其原始输入长度S过渡到1长度。所有补丁的注意力结果被连接起来,以产生分割的补丁上的注意力内输出,如Attnintra∈RP×dm所示,它表示时间序列中附近时间步长的局部细节: Attnintra=Concat(AttnEQ * jc3 * hps13 \o\al(\s\up 4(1),i)ntra,...,AttnEQ * jc3 * hps13 \o\al(\s\up 4(P),in)tra).(2) 补丁间注意在补丁之间建立关系,以捕获全局相关性。对于片片分割的时间序列X∈RP×S×d,我们首先沿着特征维度从d到dm进行特征嵌入,然后重新排列数据,将片片 ′ 数量S和特征嵌入dm两个维度结合起来,得到Xinter∈RP×dm,其中dEQ * jc3 * hps9 \o\al(\s\up 6(′),m)=S·dm。在 这样的嵌入和重新排列过程之后,同一补丁内的时间步长被组合在一起,因此我们在Xinter上执行自我关注,以模拟补丁之间的相关性。按照标准的自注意力协议,我们通过Xinter上 ′ 的线性映射来获取查询、键和值,表示为Qinter,Kinter,Vinter∈RP×dm。然后,我们计算注意力Attninter,它涉及补丁之间的交互,并表示时间序列的全局相关性: Attninter=Softmax(Qinter(Kinter)T/√dEQ * jc3 * hps9 \o\al(\s\up 3(′),m))Vinter.(3) 为了融合双注意力捕获的全局相关性和局部细节,我们将补丁内注意力的输出重新排列到Attnintra∈RP×S×dm,对补丁大小维度进行从1到S的线性变换,将每个补丁中的时间步长组合在一起,然后将其与补丁间注意力Attninter∈RP×S×dm相加,得到双重注意力Attn∈RP×S×dm的最终输出。 总体而言,多尺度划分提供了不同补丁大小的时间序列的不同视图,而补丁大小的变化进一步影响了双重注意力,双重注意力在补丁划分的指导下对不同距离的时间依赖性进行了建模。这两个组件协同工作,可在Transformer中实现多个尺度的时间建模。 3.2适应性途径 多尺度变压器模块的设计使模型具备了多尺度建模的能力。然而,不同的系列可能更喜欢不同的尺度,这取决于它们特定的时间特征和动态。简单地应用更多比例可能会带来冗余或无用的信号,并且手动调整数据集或每个时间序列的最佳比例是耗时或棘手的。理想的 

模型需要根据输入数据确定这样的临界尺度,以便对看不见的数据进行更有效的建模和更好的泛化。 为了实现自适应多尺度建模,我们提出了基于多尺度Transformer的自适应路径,如图??所示。它包含两个主要组件:多尺度路由器和多尺度聚合器。多尺度路由器根据输入数据选择特定大小的片片划分,从而激活变压器中的特定部分并控制多尺度特征的提取。路由器与多尺度聚合器协同工作,通过加权聚合将这些特性组合在一起,从而获得Transformer块的输出。 多规模路由器。多尺度路由器在多尺度Transformer中实现数据自适应路由,为补丁划分选择最佳尺寸,从而控制多尺度建模过程。由于每个时间序列的最佳或临界尺度都可能受到其复杂的固有特征和动态模式(如周期性和趋势)的影响,因此我们在路由器中引入了一个时间分解模块,该模块包含季节性和趋势分解,以提取周期性和趋势模式,如图??(b)所示。 季节性分解涉及将时间序列从时域转换为频域以提取周期模式。我们利用辨别傅里叶变换(DFT)(表示为DFT(·))将输入X分解为傅里叶基,并选择振幅最大的Kf基,以保持频域的稀疏性。然后,我们通过逆DFT获得周期性模式Xsea,表示为IDFT(·)。具体流程如下: Xsea=IDFT({f1,...,fKf},A,Φ),(4) 其中Φ和A表示从DFT(X)开始的每个频率的相位和幅度,{f1,...,fKf}表示振幅最高的Kf个频率。趋势分解使用移动平均线的不同平均池核,根据季节性分解Xrem=X−Xsea后的剩余部分提取趋势形态。对于从不同内核获得的结果,应用加权运算来获得趋势分量的表示: Xtrend=Softmax(L(Xrem))·(Avgpool(Xrem)kernel1,...,Avgpool(Xrem)kernelN),(5) 其中Avgpool(·)kerneli是具有第i个内核的池函数,N对应于内核的数量,Softmax(L(·))控制来自不同kenerl的结果的权重。我们将季节性模式和趋势模式与原始输入X相加,然后执行线性映射Linear(·),将它们沿时间维度进行转换和合并,得到Xtrans∈Rd。 根据时间分解Xtrans的结果,路由器采用路由函数来生成路径权重,从而确定要为当前数据选择的补丁大小。为了避免一致地选择几个补丁大小,导致相应的尺度重复更新,而忽略多尺度转换器中其他可能有用的尺度,我们引入了噪声项来增加权重生成过程中的随机性。生成路径权重的整个过程如下: R(Xtrans)=Softmax(XtransWr+ϵ·Softplus(XtransWnoise)),ϵ∼N(0,1),(6)R(·)表示整个路由函数,Wr和Wnoise∈Rd×M是用于权重生成的可学习参数,其中d表示Xtrans的特征维度,M表示补丁大小的数量。为了在路由中引入稀疏性并鼓励选择临界尺度,我们对通路权重进行前K选择,保留前K个通路权重并将其余权重设置为0,并 将最终结果表示为EQ * jc3 * hps19 \o\al(\s\up 2(¯),R)(Xtrans)。 多尺度聚合器。生成的通路权重的每个维度EQ * jc3 * hps19 \o\al(\s\up 2(¯),R)(Xtrans)∈RM对应于多尺度Transformer中 的补丁大小,EQ * jc3 * hps19 \o\al(\s\up 2(¯),R)(Xtrans)i>0表示执行此大小Si补丁分割,双重注意和EQ * jc3 * hps19 \o\al(\s\up 2(¯),R)(Xtrans)i=0表 示忽略当前数据的补丁大小。让我们Xut用补丁大小Si表示多尺度转换器的输出,由于不同补丁大小产生的时间维度不同,聚合器首先执行一个转换函数,Ti(·)对齐不同尺度的时间维度。然后,聚合器根据路径权重对多尺度输出进行加权聚合,以获得该AMS块的最终输出:  I(EQ * jc3 * hps19 \o\al(\s\up 2(¯),R)(Xtrans)i>0)是指示器函数,它在时输出1,否则输出0,表示在聚 合过程中只考虑或需要Transformer的前K个补丁大小和相应的输出。 4实验 4.1时间序列预测 数据。我们在九个真实世界的数据集上进行了实验,以评估Pathformer的性能,涵盖一系列领域,包括电力运输、天气预报和云计算。这些数据集包括ETT(ETTh1、ETTh2、ETTm1、ETTm2)、天气、电力、交通、ILI和云集群(集群A、集群B、集群C)。 

Table1:多变量时间序列预测结果。输入长度H=96(H=36表示ILI)。最佳结果以粗体突出显示,次佳结果以下划线突出显示。 MethodPathFormerPatchTSTNLinearScaleformerTiDEFEDformerPyraformerAutoformer

MetricMSEMAE MSE MAE MSE MAE MSE MAE MSE MAE MSE MAE MSE MAE MSE MAE

ETTh1 96 192 336 720 0.3820.4400.4540.479 0.4000.4270.4320.461 0.3940.4460.4850.495 0.4080.4380.4550.474 0.3860.4400.4800.486 0.3920.4300.4430.472 0.3960.4340.4620.494 0.4400.4600.4760.500 0.4270.4720.5270.644 0.4500.4860.5270.605 0.3760.4200.4590.506 0.4190.4480.4650.507 0.6640.7900.8910.963 0.6120.6810.7380.782 0.4490.5000.5210.514 0.4590.4820.4960.512

ETTh2 96 192 336 720 0.2790.3490.3480.398 0.3310.3800.3820.424 0.2940.3780.3820.412 0.3430.3940.4100.433 0.2900.3790.4210.436 0.3390.3950.4310.453 0.3640.4660.4790.487 0.4070.4580.4760.492 0.3040.3940.3850.463 0.3590.4220.4210.475 0.3460.4290.4960.463 0.3880.4390.4870.474 0.6450.7880.9070.963 0.5970.6830.7470.783 0.3580.4560.4820.515 0.3970.4520.4860.511

ETTm1 96 192 336 720 0.3160.3660.3860.460 0.3460.3700.3940.432 0.3240.3620.3900.461 0.3610.3830.4020.438 0.3390.3790.4110.478 0.3690.3860.4070.442 0.3550.4280.5240.558 0.3980.4550.4870.517 0.3560.3910.4240.480 0.3810.3990.4230.456 0.3790.4260.4450.543 0.4190.4410.4590.490 0.5430.5570.7540.908 0.5100.5370.6550.724 0.5050.5530.6210.671 0.4750.4960.5370.561

ETTm2 96 192 336 720 0.1700.2380.2930.390 0.2480.2950.3310.389 0.1770.2480.3040.403 0.2600.3060.3420.397 0.1770.2410.3020.405 0.2570.2970.3370.396 0.1820.2510.3400.435 0.2750.3180.3750.433 0.1820.2560.3130.419 0.2640.3230.3540.410 0.2030.2690.3250.421 0.2870.3280.3660.415 0.4350.7301.2013.625 0.5070.6730.8451.451 0.2550.2810.3390.433 0.3390.3400.3720.432

Weather 96 192 336 720 0.1560.2060.2540.340 0.1920.2400.2820.336 0.1770.2240.2770.350 0.2180.2580.2970.345 0.1680.2170.2670.351 0.2080.2550.2920.346 0.2880.3680.4470.640 0.3650.4250.4690.574 0.2020.2420.2870.351 0.2610.2980.3350.386 0.2380.2750.3390.389 0.3140.3290.3770.409 0.8960.6220.7391.004 0.5560.6240.7530.934 0.2490.3250.3510.415 0.3290.3700.3910.426

Electricity 96 192 336 720 0.1450.1670.1860.231 0.2360.2560.2750.309 0.1800.1880.2060.247 0.2640.2750.2910.328 0.1850.1890.2040.245 0.2660.2760.2890.319 0.1820.1880.2100.232 0.2970.3000.3240.339 0.1940.1930.2060.242 0.2770.2800.2960.328 0.1860.1970.2130.233 0.3020.3110.3280.344 0.3860.3860.3780.376 0.4490.4430.4430.445 0.1960.2110.2140.236 0.3130.3240.3270.342

ILI 24 36 48 60 1.5871.4291.5051.731 0.7580.7110.7420.799 1.7241.5361.8211.923 0.8430.7520.8320.842 2.7252.5302.5102.492 1.0691.0321.0311.026 0.2322.7452.7482.793 0.3391.0751.0721.059 2.1542.4362.5322.748 0.9921.0421.0511.142 2.6242.5162.5052.742 1.0951.0211.0411.122 1.4207.3947.5517.662 2.0122.0312.0572.100 2.9062.5853.0242.761 1.1821.0381.1451.114

Traffic 96 192 336 720 0.4790.4840.5030.537 0.2830.2920.2990.322 0.4920.4870.5050.542 0.3240.3030.3170.337 0.6450.5990.6060.645 0.3880.3650.3670.388 2.6780.5640.5700.576 1.0710.3510.3490.349 0.5680.6120.6050.647 0.3520.3710.3740.410 0.5760.6100.6080.621 0.3590.3800.3750.375 2.0850.8670.8690.881 0.4680.4670.4690.473 0.5970.6070.6230.639 0.3710.3820.3870.395

Cluster-A 24 48 96 192 0.1000.1600.2270.349 0.2050.2640.3210.400 0.1260.2080.3130.452 0.2340.3020.3720.453 0.1340.2140.3350.442 0.2350.3100.4100.452 0.1280.1820.2740.372 0.2470.3190.3280.451 0.1280.1920.2470.356 0.2440.2990.3380.422 0.1310.1750.2930.350 0.2600.3070.3490.439 0.1310.1700.2430.378 0.2680.3110.3750.437 0.3720.3900.4660.585 0.4610.4710.5140.584

Cluster-B 24 48 96 192 0.1210.1720.2420.437 0.2240.2700.3220.427 0.1260.1830.2720.476 0.2370.2900.3520.461 0.1300.1730.2810.479 0.2410.2850.3650.456 0.1250.1640.2520.438 0.2410.2800.3420.447 0.1280.1650.2440.452 0.2400.2880.3340.467 0.1280.1560.2770.414 0.2430.2870.3890.478 0.1290.1680.3150.389 0.2630.2960.4360.485 0.2420.2990.3660.597 0.3690.4250.4710.563

Cluster-C 24 48 96 192 0.0640.1020.1620.304 0.1690.2180.2760.369 0.0750.1180.1880.354 0.1880.2410.3050.413 0.1000.1630.2450.375 0.2050.2860.3180.457 0.0740.1100.1770.326 0.2040.2420.3210.428 0.0820.1210.2010.341 0.1990.2660.3050.424 0.0760.1080.1710.338 0.2120.2460.3230.453 0.1070.1420.1810.332 0.2470.2840.3280.396 0.1890.2100.2890.419 0.3410.3630.4210.511

基线和指标。我们选择一些最先进的模型作为基准,包括PatchTST、NLinear、Scaleformer、TIDE、FEDformer、Pyraformer和Autoformer。为确保公平比较,所有模型都遵循相同的输入长度(ILI数据集为H=36,其他数据集为H=96)和预测长度(CloudCluster数据集为F∈{24,49,96,192},ILI数据集为F∈{24,36,48,60},其他数据集为F∈{96,192,336,720})。我们在时间序列预测中选择了两个常见的指标:平均绝对误差(MAE)和均方误差(MSE)。 实施细节。Pathformer利用Adam优化器,学习率设置为10−3。采用的默认损失函数是L1损失,我们在训练过程中在10个epoch内实现提前停止。所有实验均使用PyTorch进行,并在NVIDIAA80080GBGPU上执行。Pathformer由3个自适应多尺度模块(AMS模块)组成。每个AMS模块包含4种不同的补丁大小。这些修补程序大小是从常用选项池中选择的,即{2,3,6,12,16,24,32}。 主要结果。表??显示了多变量时间序列预测的预测结果,其中Pathformer在81个案例中表现最好,在88个案例中,有5个案例表现第二好。与第二好的基线PatchTST相比,Pathformer表现出显着的改进,MSE降低了8.1%,MAE降低了6.4%,令人印象深刻。与强大的线性模型NLinear相比,Pathformer在综合性能上也优于它们,尤其是在电力和交通等大型数据集上。这证明了Transformer架构在时间序列预测方面的潜力。与多尺度模型Pyraformer和Scaleformer相比,Pathformer表现出良好的性能提升,MSE大幅降低了36.4%,MAE降低了19.1%。这说明所提出的基于自适应路径的时间分辨率和时间距离的综合建模在多尺度建模中更为有效。 4.2迁移学习 实验设置。为了评估Pathformer的可转移性,我们将其与三个基线进行了基准测试:PatchTST、FEDformer和Autoformer,设计了两个不同的转移实验。在评估不同数据集之间的可转移性时,模型最初在ETTh1和ETTm1上进行预训练。随后,我们使用 

Table2:迁移学习结果。最佳结果以粗体显示,第二个结果以下划线显示。

Mdoels  Predict  PathformerPart-tuning  Full-tuning  PatchTST PredictFull-tuning  FEDformer PredictFull-tuning  Autoformer PredictFull-tuning  MetricMSEMAE MSE MAE MSE MAE MSE MAE MSE MAE MSE MAE MSE MAE MSE MAE MSE MAE

ETTh2 96 192 336 720 0.3400.4110.3840.450 0.3690.4060.4010.448 0.2870.3580.3420.416 0.3330.3820.3840.437 0.2760.3500.3370.401 0.3280.3760.3740.426 0.3460.4220.4080.479 0.3690.4200.4190.467 0.2870.3660.3770.410 0.3370.3850.4050.432 0.4200.4750.4160.529 0.4490.4750.4460.517 0.3260.4090.3780.46 0.3370.4300.4160.487 0.3970.5430.5210.694 0.4390.5110.5150.602 0.3420.4150.4150.452 0.3860.4280.4420.469

ETTm2 96 192 336 720 0.2200.2580.3250.422 0.2940.3060.3500.408 0.1810.240 0.3050.406 0.2600.2990.3390.398 0.1720.2370.3020.391 0.2510.2940.3340.392 0.1890.2630.3320.429 0.2840.3220.3650.419 0.1770.2430.3050.405 0.2610.3040.3390.395 0.2560.4270.4290.530 0.3780.4410.4480.503 0.2010.2660.3350.423 0.2850.3240.3690.417 0.3310.4350.5060.680 0.4060.4610.5010.573 0.2120.2750.3330.444 0.2930.3310.3700.433

Cluster-A 24 48 96 192 0.1210.1860.2490.372 0.2230.2810.3340.416 0.1000.1590.2150.312 0.2050.2610.3130.381 0.0970.1440.1930.292 0.2020.2540.3020.371 0.1430.2310.3500.524 0.2500.3220.3960.491 0.1150.1920.2900.406 0.2210.2890.3590.433 0.2000.2400.3260.381 0.3260.3600.4180.463 0.1710.2190.2990.338 0.2980.3420.3920.432 0.3820.3720.3950.948 0.4710.4630.4900.761 0.3490.3620.3750.592 0.4450.4500.4320.602

Cluster-B 24 48 96 192 0.1400.2020.2960.464 0.2430.2980.3570.468 0.1200.1740.2530.441 0.2260.2750.3270.425 0.1170.1700.2440.425 0.2210.2700.3210.420 0.1450.2070.2980.529 0.2480.3060.3650.495 0.1240.1780.2640.471 0.2310.2820.2420.463 0.1670.2250.3470.528 0.2830.3100.4270.497 0.1470.1620.3180.434 0.2710.2830.4080.478 0.2260.2470.3070.618 0.3420.3610.4300.614 0.1920.2340.2800.584 0.3180.3540.3990.578

Cluster-C 24 48 96 192 0.0690.1440.1740.327 0.1730.2540.2840.386 0.0640.1040.1660.316 0.1660.2190.2750.374 0.0620.1010.1620.301 0.1650.2150.2720.365 0.0740.1380.1940.376 0.1840.2460.3030.413 0.0720.1150.1820.349 0.1820.2330.2980.407 0.1090.1500.2280.344 0.2430.2850.3420.444 0.0970.1180.1900.332 0.2290.2600.3250.441 0.2120.2280.2810.508 0.3440.3660.4360.537 0.1940.2140.2630.417 0.3320.3620.4050.507

Table3:消融研究。W/OInter、W/OIntra、W/ODecompose分别表示删除补丁间注意力、补丁内注意力和时间序列分解。

ModelsW/OInterW/OIntraW/oDecomposeW/oPathwaysPathFormer

MetricMSEMAE MSE MAE MSE MAE MSE MAE MSE MAE

Weather 96 192 336 720 0.1620.1960.2190.2480.2620.2900.3500.349 0.1700.2200.2720.358 0.2030.2490.2920.357 0.1620.2120.2560.344 0.1980.2440.2850.340 0.1680.2190.2690.349 0.2040.2500.2900.348 0.1560.2060.2540.340 0.1920.2400.2820.336

Electricity 96 192 336 720 0.1660.2590.1850.2700.2160.3010.2390.322 0.1820.1930.2140.253 0.2640.2750.2970.327 0.1520.1760.1950.235 0.2440.2640.2810.316 0.1680.1850.2100.254 0.2560.2720.2960.332 0.1450.1670.1860.231 0.2360.2560.2750.309

ETTh2和ETTm2对它们进行微调。为了评估未来数据的可转移性,模型在来自三个集群的前70个%上进行预训练:集群A、集群B和集群C。在预训练之后,对特定于每个集群的剩余30个%训练数据进行微调。在基线方法方面,我们探索了两种方法:直接预测(零样本)和全调优。与这些方法不同,Pathformer集成了部分调整策略。在这种方法中,特定参数(如路由器网络的参数)经过微调,从而显着降低了计算资源需求。 迁移学习结果。表??显示了我们的迁移学习评估结果。在直接预测和完全调整方法中,Pathformer都超越了基线模型,突出了其增强的泛化性和可转移性。Pathformer的主要优势之一在于其适应能力,可以为不同的时间动态选择不同的尺度。这种适应性使其能够有效地捕获不同数据集中存在的复杂时间模式,从而表现出卓越的泛化性和可转移性。部分调优是一种轻量级的微调方法,它需要更少的计算资源,平均将训练时间减少52%,同时仍能实现几乎与Pathformer全调优相媲美的预测精度。此外,它在大多数数据集上的表现优于其他基线模型的全面调整。这表明Pathformer可以为时间序列预测提供有效的轻量级迁移学习。 4.3消融研究 为了确定Pathformer中不同模块的影响,我们进行了消融研究,重点关注斑块间注意、贴片内注意、时间序列分解和通路。W/OPathways配置需要对每个数据集使用补丁大小池中的所有补丁大小,从而消除自适应选择。表??说明了每个模块的独特影响。途径的影响是巨大的;省略它们会导致预测准确性显著降低。这强调了优化补丁大小组合以提取多尺度特征的关键性,从而显着提高了模型的预测精度。在效率方面,补丁内注意力特别擅长辨别局部模式,而补丁间注意力主要捕捉更广泛的全局模式。时间序列分解模块分解趋势和周期模式,以提高捕获其输入的时间动态的能力,有助于识别适当的补丁大小以进行组合。 改变自适应选择的面片大小的数量。Pathformer自适应地选择前K个补丁大小进行组合,并根据不同的时间序列样本进行调整。我们在表??中评估了不同K值对预测精度的影响。我们的研究结果表明,K=2和K=3比K=1和K=4产生更好的结果,突出了自适应地模拟关键多尺度特征以提高准确性的优势。此外,使用不同补丁大小的特征提取可使不同的时间序列样本受益,但并非所有补丁大小都同样有效。 通路权重的可视化。我们展示了三个样本,并在图??中描绘了每个斑块大小的平均通路权重。我们的观察表明,这些样品具有独特的通路重量分布。样本1和2都表现出更长的季节性和相似的趋势模式,显示出相似的可视化路径权重。这体现在他们归因于较大补丁大 

Table4:参数敏感性研究。预测精度因K而异。

K=1K=2K=3K=4

MetricMSEMAE MSE MAE MSE MAE MSE MAE

ETTh2 96 192 336 720 0.2830.3330.3570.3800.3420.3790.4110.430 0.2790.3490.3480.398 0.3310.3800.3820.424 0.2860.3540.3380.406 0.3370.3830.3770.428 0.2820.3590.3470.407 0.3330.3840.3800.432

Electricity 96 192 336 720 0.1620.2470.1750.2600.1920.2780.2340.311 0.1450.1670.1860.231 0.2360.2560.2750.309 0.1470.1760.1810.230 0.2380.2650.2740.308 0.1520.1780.1900.235 0.2440.2660.2770.313

小的较高权重。另一方面,样品3的特点是季节性模式较短,对于较小的斑块尺寸,与较高的权重保持一致。这些观察结果强调了Pathformer的适应性,强调了它能够针对样本的不同季节性和趋势模式识别和应用最佳斑块大小组合。

Threesamplesfromtheweather

B1

B2

B3 PathweightofSample1   0.50 0.45 0.40 0.35 0.30 0.25 0.20 0.15

B1

B2

B3 PathweightofSample2   0.40 0.35 0.30 0.25 0.20 0.15 0.10

B1

B2

B3 PathweigthofSample3   0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10

Figure4:天气中不同斑块大小的平均路径权重。B1、B2和B3表示不同的AMS(自适应多尺度)块,而S1、S2、S3和S4表示每个AMS块内不同的补丁大小,补丁大小依次减小。 5结论 在本文中,我们提出了用于时间序列预测的具有自适应路径的多尺度转换器(Pathformer)。它通过引入具有多种斑块大小的斑块分割和对分割斑块的双重关注,集成了多尺度的时间分辨率和时间距离,从而实现了多尺度特征的综合建模。此外,自适应通路根据不同的时间动态动态动态地选择和聚合特定尺度的特征。这些创新机制共同使Pathformer能够实现出色的预测性能,并在多个预测任务中展示出强大的泛化能力。 

A附录 A.1实验细节 A.1.1数据 关于实验数据集的特殊详细信息如下:ETT1数据集由7个变量组成,来自两个不同的电力变压器。它涵盖2016年1月至2018年1月期间。每个电力变压器都有15分钟和1小时粒度的数据记录,标记为ETTh1、ETTh2、ETTm1和ETTm2。天气2数据集包含德国的21个气象指标,每10分钟收集一次。电力3数据集包含321名用户的用电量,每小时记录一次,时间跨度为2016年7月至2019年7月。ILI4每周从美国疾病控制和预防中心收集2002年至2021年的流感样疾病患者数据。交通5包括来自加州交通部的每小时数据。该数据集描绘了旧金山湾区高速公路上各种传感器测量的道路占用率。云集群数据集是私有业务数据,以1分钟为间隔记录三个集群的客户资源需求:集群A、集群B、集群C,其中A、B、C代表不同的城市,涵盖2023年2月至2023年4月。对于数据集的准备,我们遵循先前研究的既定实践。详细统计数据见表??。 Table5:数据集的统计

Datasets ETTh1&ETTh2 ETTm1&ETTm2 Weather Electricity ILI Traffic Cluster

Variables 7 7 21 321 7 862 6

Timestamps 17420 69680 52696 26304 966 17544 256322

SplitRatio 6:2:2 6:2:2 7:1:2 7:1:2 7:1:2 7:1:2 7:1:2

A.1.2基线 在时间序列预测领域,近年来出现了许多模型。我们选择2021年至2023年具有卓越预测性能的模型作为基线,包括2021年最先进的(SOTA)Autoformer、2022年SOTAFEDformer以及2023年SOTAPatchTST和NLinear等。每个模型的具体代码存储库如下: •补丁TST:github.com/yuqinie98/P… •NLinear:github.com/cure-lab/LT… •FEDformer:github.com/MAZiqing/FE… •鳞片形成者:github.com/borealisai/… •潮汐:github.com/google-rese… •自动成型机:github.com/thuml/Autof… A.2单变量时间序列预测 在ETT和Cloud聚类数据集上进行了单变量时间序列预测实验。如表??所示,Pathformer在50个案例中表现最佳,在56个案例中排名第五。Pathformer的表现优于第二好的基线PatchTST,尤其是在云集群数据集上。我们的模型Pathformer在多变量和单变量时间序列预测中都表现出出色的预测性能。 A.3使用变压器型号改变输入长度 在时间序列预测任务中,输入长度的大小决定了模型接收的历史信息量。我们从主要实验中选择具有更好预测性能的模型作为基线。我们配置了不同的输入长度来评估Pathformer的有效性,并将输入长度为48,192的预测结果可视化。从图??可以看出,Pathformer 在ETTh1、ETTh2、天气和电力方面的表现始终优于基线。如表??和表??所示,就 1github.com/zhouhaoyi/E… 3archive.ics.uci.edu/ml/datasets… 5pems.dot.ca.gov/ 

Table6:单变量时间序列预测结果。输入长度H=96和预测长度F∈{96,192,336,720}(对于云集群数据集F∈{24,48,96,192})。最佳结果以粗体突出显示。 ModelsPathFormerPatchTSTFEDformerAutoformer

MetricMSEMAE MSE MAE MSE MAE MSE MAE

ETTh1 96 0.057 0.180 0.057 0.179 0.079 0.215 0.071 0.206

192 0.075 0.208 0.076 0.209 0.104 0.245 0.114 0.262

336 0.076 0.216 0.093 0.240 0.119 0.270 0.107 0.258

720 0.090 0.238 0.097 0.245 0.142 0.299 0.126 0.283

ETTh2 96 0.128 0.274 0.127 0.273 0.128 0.271 0.153 0.306

192 0.177 0.330 0.178 0.328 0.185 0.330 0.204 0.351

336 0.180 0.340 0.221 0.374 0.231 0.378 0.246 0.389

720 0.213 0.371 0.250 0.403 0.278 0.420 0.268 0.409

ETTm1 96 0.029 0.126 0.030 0.127 0.033 0.140 0.056 0.183

192 0.042 0.160 0.043 0.165 0.058 0.186 0.081 0.216

336 0.058 0.185 0.059 0.185 0.084 0.231 0.076 0.218

720 0.079 0.217 0.081 0.218 0.102 0.250 0.110 0.267

ETTm2 96 0.062 0.179 0.064 0.181 0.072 0.206 0.065 0.189

192 0.096 0.230 0.097 0.231 0.102 0.245 0.118 0.256

336 0.128 0.268 0.129 0.270 0.130 0.279 0.154 0.305

720 0.179 0.326 0.181 0.330 0.178 0.325 0.182 0.335

Cluster-A 24 0.137 0.218 0.174 0.256 0.203 0.303 0.455 0.483

48 0.218 0.280 0.299 0.343 0.308 0.364 0.508 0.504

96 0.298 0.337 0.434 0.409 0.361 0.403 0.563 0.524

192 0.390 0.401 0.589 0.480 0.409 0.447 0.669 0.583

Cluster-B 24 0.100 0.206 0.107 0.218 0.130 0.253 0.197 0.339

48 0.146 0.251 0.158 0.265 0.149 0.272 0.247 0.390

96 0.219 0.301 0.234 0.327 0.230 0.342 0.313 0.429

192 0.454 0.404 0.461 0.444 0.415 0.412 0.512 0.544

Cluster-C 24 0.080 0.191 0.092 0.210 0.120 0.258 0.206 0.354

48 0.117 0.232 0.138 0.261 0.151 0.302 0.229 0.365

96 0.176 0.286 0.222 0.330 0.198 0.342 0.293 0.420

192 0.345 0.390 0.404 0.443 0.361 0.444 0.441 0.524

H=48,192而言,Pathformer分别在46个案例和48个案例中的44个案例中表现最佳。根据上述结果,很明显,Pathformer在不同输入长度上的表现优于基线。随着输入长度的增加,Pathformer的预测指标继续降低,表明它能够对更长的序列进行建模。

0.50

0.45

0.40

0.50 0.45 0.40 ETTh1H=48

 

96192336720 F ETTh1H=192

令  

96192336720 F

0.50 0.45 0.40 0.35

0.45 0.40 0.35 ETTh2H=48

令  

96192336720 F ETTh2H=192  96192336720 F

0.40

0.30

0.40 0.30 0.20 WeatherH=48



96192336720 F WeatherH=192

96192336720 F 0.40 0.35 0.30

0.40 0.35 0.30 0.25 ElectricityH=48

令  

96192336720 F ElectricityH=192

a令——令   

96192336720 F

 Figure5:ETTh1、ETTh2、天气和电力输入长度不同的结果。

A.4与一些基本基线的更多比较 为了验证Pathformer的有效性,我们使用长输入序列长度(H=336)对一些最近表现出良好性能的基本基线进行了广泛的实验:DLinear、NLinear和N-HiTS。如表??所示,我们提出的模型Pathformer在输入长度336上优于这些基线。?指出,现有的Transformer不能很好地从较长的输入序列中提取时间关系,但我们提出的Pathformer在较长的输入长度下表现更好,这表明考虑自适应多尺度建模可以有效地增强Transformer的这种关系提取能力。 

Table7:多变量时间序列预测结果。输入长度H=48,预测长度F∈{96,192,336,720}。最佳结果以粗体突出显示。 ModelsPathformerPatchTSTFEDformerAutoformer

MetricMSEMAE MSE MAE MSE MAE MSE MAE

ETTh1 96 0.390 0.403 0.410 0.417 0.382 0.419 0.406 0.432

192 0.454 0.434 0.469 0.448 0.451 0.456 0.451 0.452

336 0.483 0.445 0.516 0.469 0.499 0.487 0.461 0.464

720 0.507 0.475 0.509 0.487 0.510 0.504 0.498 0.500

ETTh2 96 0.295 0.335 0.307 0.348 0.330 0.373 0.344 0.383

192 0.366 0.381 0.397 0.399 0.440 0.436 0.425 0.426

336 0.368 0.390 0.412 0.420 0.543 0.504 0.445 0.452

720 0.428 0.435 0.434 0.441 0.471 0.483 0.483 0.481

ETTm1 96 0.420 0.392 0.424 0.403 0.428 0.432 0.745 0.556

192 0.446 0.410 0.468 0.429 0.476 0.460 0.715 0.556

336 0.469 0.431 0.501 0.453 0.526 0.494 0.816 0.590

720 0.512 0.465 0.553 0.484 0.630 0.528 0.746 0.572

ETTm2 96 0.181 0.256 0.189 0.272 0.185 0.274 0.211 0.299

192 0.251 0.301 0.260 0.371 0.256 0.318 0.277 0.388

336 0.323 0.349 0.328 0.359 0.329 0.365 0.347 0.380

720 0.420 0.406 0.429 0.415 0.447 0.432 0.441 0.432

Weather 96 0.188 0.223 0.212 0.243 0.241 0.309 0.291 0.357

192 0.227 0.257 0.254 0.277 0.308 0.356 0.349 0.391

336 0.276 0.297 0.310 0.316 0.385 0.406 0.409 0.424

720 0.345 0.349 0.385 0.365 0.438 0.432 0.437 0.431

Electricity 96 0.201 0.280 0.225 0.293 0.240 0.349 0.211 0.322

192 0.210 0.285 0.229 0.299 0.248 0.357 0.224 0.331

336 0.236 0.305 0.239 0.316 0.265 0.370 0.259 0.362

720 0.272 0.338 0.282 0.349 0.326 0.405 0.313 0.407

Table8:多变量时间序列预测结果。输入长度H=192,预测长度F∈{96,192,336,720}。最佳结果以粗体突出显示。 ModelsPathformerPatchTSTFEDformerAutoformer

MetricMSEMAE MSE MAE MSE MAE MSE MAE

ETTh1 96 0.377 0.394 0.384 0.403 0.388 0.423 0.430 0.441

192 0.428 0.421 0.428 0.425 0.433 0.456 0.487 0.467

336 0.424 0.419 0.452 0.436 0.445 0.462 0.478 0.474

720 0.474 0.459 0.453 0.459 0.476 0.490 0.518 0.519

ETTh2 96 0.283 0.334 0.285 0.340 0.397 0.424 0.362 0.401

192 0.343 0.374 0.356 0.387 0.439 0.458 0.430 0.447

336 0.332 0.374 0.351 0.396 0.471 0.481 0.408 0.447

720 0.393 0.421 0.395 0.427 0.479 0.490 0.440 0.469

ETTm1 96 0.295 0.335 0.295 0.345 0.381 0.424 0.510 0.428

192 0.336 0.361 0.330 0.365 0.412 0.441 0.619 0.545

336 0.359 0.384 0.364 0.388 0.435 0.455 0.561 0.500

720 0.432 0.420 0.423 0.424 0.473 0.474 0.580 0.512

ETTm2 96 0.169 0.250 0.169 0.254 0.223 0.305 0.244 0.321

192 0.230 0.290 0.230 0.294 0.281 0.339 0.302 0.362

336 0.286 0.328 0.281 0.329 0.321 0.364 0.346 0.390

720 0.375 0.384 0.373 0.384 0.417 0.420 0.423 0.428

Weather 96 0.152 0.189 0.160 0.205 0.239 0.316 0.298 0.363

192 0.198 0.237 0.204 0.245 0.274 0.326 0.322 0.379

336 0.246 0.276 0.258 0.285 0.334 0.369 0.378 0.409

720 0.329 0.331 0.329 0.337 0.401 0.412 0.435 0.431

Electricity 96 0.136 0.232 0.146 0.240 0.231 0.343 0.198 0.313

192 0.143 0.248 0.152 0.252 0.258 0.361 0.218 0.335

336 0.172 0.274 0.178 0.271 0.273 0.372 0.252 0.352

720 0.218 0.299 0.223 0.308 0.308 0.402 0.275 0.371

A.5讨论 A.5.1与PatchTST比较 PatchTST将时间序列划分为多个补丁,经验证明补丁是提高模型在时间序列预测中性能的有效方法。我们提出的模型Pathformer扩展了修补方法,以纳入多尺度建模。与PatchTST 

Table9:多变量时间序列预测结果。输入长度H=336(对于ILI数据集H=106),预测长度F∈{96,192,336,720}(对于ILI数据集F∈{24,36,48,60})。最佳结果以粗体突出显示。 MethodPathformerDLinearNLinearN-HiTS

MetricMSEMAE MSE MAE MSE MAE MSE MAE

ETTh1 96 0.369 0.395 0.375 0.399 0.374 0.394 0.378 0.393

192 0.414 0.418 0.405 0.416 0.408 0.415 0.427 0.436

336 0.401 0.419 0.439 0.443 0.429 0.427 0.458 0.484

720 0.440 0.452 0.472 0.490 0.440 0.453 0.561 0.501

ETTh2 96 0.276 0.334 0.289 0.353 0.277 0.338 0.274 0.345

192 0.329 0.372 0.383 0.418 0.344 0.381 0.353 0.401

336 0.324 0.377 0.448 0.465 0.357 0.400 0.382 0.425

720 0.366 0.410 0.605 0.551 0.394 0.436 0.625 0.557

ETTm1 96 0.285 0.336 0.299 0.353 0.306 0.348 0.302 0.350

192 0.331 0.361 0.335 0.365 0.349 0.375 0.347 0.383

336 0.362 0.382 0.369 0.386 0.375 0.388 0.369 0.402

720 0.412 0.414 0.425 0.421 0.433 0.422 0.431 0.441

ETTm2 96 0.163 0.248 0.167 0.260 0.167 0.255 0.176 0.255

192 0.220 0.286 0.224 0.303 0.221 0.293 0.245 0.305

336 0.275 0.325 0.281 0.342 0.274 0.327 0.295 0.346

720 0.363 0.381 0.397 0.421 0.368 0.384 0.401 0.413

Weather 96 0.144 0.184 0.176 0.237 0.182 0.232 0.158 0.195

192 0.191 0.229 0.220 0.282 0.225 0.269 0.211 0.247

336 0.234 0.268 0.265 0.319 0.271 0.301 0.274 0.300

720 0.316 0.323 0.323 0.362 0.338 0.348 0.351 0.353

Electricity 96 0.134 0.218 0.140 0.237 0.141 0.237 0.147 0.249

192 0.142 0.235 0.153 0.249 0.154 0.248 0.167 0.269

336 0.162 0.257 0.169 0.267 0.171 0.265 0.186 0.290

720 0.200 0.290 0.203 0.301 0.210 0.297 0.243 0.340

ILI 24 1.411 0.705 2.215 1.081 1.683 0.868 1.862 0.869

36 1.365 0.727 1.963 0.963 1.703 0.859 2.071 0.934

48 1.537 0.764 2.130 1.024 1.719 0.884 2.134 0.932

60 1.418 0.772 2.368 1.096 1.819 0.917 2.137 1.968

Traffic 96 0.373 0.241 0.410 0.282 0.410 0.279 0.402 0.282

192 0.380 0.252 0.423 0.287 0.423 0.284 0.420 0.297

336 0.395 0.256 0.436 0.296 0.435 0.290 0.448 0.313

720 0.425 0.280 0.466 0.315 0.464 0.307 0.539 0.353

的主要区别如下:(1)使用多个补丁大小进行分区:PatchTST使用单个补丁大小对时间序列进行分区,从而获得具有单一分辨率的特征。相比之下,Pathformer在每一层使用多个不同的补丁大小进行分区。此方法从时间分辨率的角度捕获多尺度要素。(2)补丁与每个补丁中局部细节之间的全局相关性:PatchTST在分割的补丁之间执行注意力,忽略每个补丁中的内部细节。相比之下,Pathformer不仅考虑补丁之间的相关性,还考虑每个补丁中的详细信息。引入双关注(斑块间关注和斑块内关注),整合全局相关性和局部细节,从时间距离的角度捕捉多尺度特征。(3)自适应多尺度建模:PatchTST对所有数据采用固定的补丁大小,阻碍了对不同时间序列中关键模式的掌握。我们提出了自适应通路,可以根据单个样本的特征动态选择不同的斑块大小,从而实现自适应多尺度建模。 A.5.2与N-HiTS比较 N-HiTS利用多尺度特征建模进行时间序列预测,但与Pathformer在以下几个方面有所不同:(1)N-HiTS通过多速率数据采样和分层插值对不同分辨率的时间序列特征进行建模。相比之下,Pathformer不仅考虑了不同分辨率的时间序列特征,还从时间距离的角度进行了多尺度建模。同时考虑时间分辨率和时间距离可以实现更全面的多尺度建模方法。(2)N-HiTS采用固定采样率进行多速率数据采样,缺乏基于时间序列样本差异自适应进行多尺度建模的能力。相比之下,Pathformer具有自适应多尺度建模的能力。(3)N-HiTS采用线性结构构建模型框架,而Pathformer则在Transformer架构中实现多尺度建模。 A.5.3与Scaleformer比较 Scaleformer还利用多尺度特征的建模进行时间序列预测。它与Pathformer的区别在于:(1)Scaleformer通过下采样获得不同时间分辨率的多尺度特征。相比之下,Pathformer不仅考虑了不同分辨率的时间序列特征,还考虑了时间距离的角度,考虑了全局相关性和局部细 

节。这为通过时间分辨率和时间距离进行多尺度建模提供了更全面的方法。(2)Scaleformer需要分配不同时间分辨率的预测模型,导致模型复杂度高于Pathformer。(3)Scaleformer采用固定采样率,而Pathformer具有基于时间序列样本差异的自适应多尺度建模能力。 A.6大型数据集上的实验 目前的时间序列预测基准相对较小,人们担心模型的预测性能可能会受到过拟合的影响。为了解决这个问题,我们探索了更大的数据集来验证所提出的模型的有效性。详细过程如下:我们从数据量和变量数量两个角度寻求更大的数据集。我们添加了两个数据集,即风力发电数据集和PEMS07数据集,以评估Pathformer在较大数据集上的性能。风力发电数据集包含7397147时间戳,样本量达到数百万个,PEMS07数据集包括883个变量。如表??所示,与一些最先进的方法(如PatchTST、DLinear和Scaleformer)相比,Pathformer在这些较大的数据集上表现出卓越的预测性能。 Table10:大型数据集的结果:PEMS07和风力发电。 MethodsPathformerPatchTSTDLinearScaleformer

MetricMSEMAE MSE MAE MSE MAE MSE MAE

PEMS07 96 0.135 0.243 0.146 0.259 0.564 0.536 0.152 0.268

192 0.177 0.271 0.185 0.286 0.596 0.555 0.195 0.302

336 0.188 0.278 0.205 0.289 0.475 0.482 0.276 0.394

720 0.208 0.296 0.235 0.325 0.543 0.523 0.305 0.410

WindPower 96 0.062 0.146 0.070 0.158 0.078 0.184 0.089 0.167

192 0.123 0.214 0.131 0.237 0.133 0.252 0.163 0.246

336 0.200 0.283 0.215 0.307 0.205 0.325 0.225 0.352

720 0.388 0.414 0.404 0.429 0.407 0.457 0.414 0.426

A.7可视化 我们在Electricity数据集上可视化了Pathformer的预测结果。如图??所示,对于F=96,192,336,720的预测长度,预测曲线与GroundTruth曲线紧密吻合,表明Pathformer具有出色的预测性能。同时,Pathformer在捕捉不同样本中存在的多周期和复杂趋势方面表现出了有效性。这证明了其对多尺度特征的自适应建模能力。 

 3

2

1

0

1

  0255075100125150175200 (a)PredicitonLengthF=96    2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5   0100200300400 (c)PredicitonLengthF=336 

3

2

1

0

-1

0100200300400500600700800 (d)PredicitonLengthF=720

Figure6:Pathformer对电力的预测结果的可视化。输入长度H=96