Chronos-2:从单变量到通用时序预测

3 阅读6分钟

引言:时序预测的新范式

时序预测在商业、科学和工程的众多应用中至关重要。近期,基础模型引领了时序预测领域的范式转变。与从单一时间序列进行外推的统计模型,或在特定任务上训练的早期深度学习模型不同,时序基础模型(TSFM)在大规模时序数据上进行一次性训练,然后可应用于各种预测问题。

自首次发布以来,某机构的TSFM Chronos和Chronos-Bolt在Hugging Face上的总下载量已超过6亿次,这证明了TSFM的受欢迎程度及其在任意预测场景中的适用性。尽管取得了成功,但现有的TSFM有一个关键限制:它们仅支持单变量预测,即一次预测一个时间序列。虽然单变量预测很重要,但许多场景需要额外的能力。现实世界的预测问题通常涉及同时预测多个共同演化的时间序列(多变量预测),或整合影响结果的外部因素(含协变量预测)。例如,CPU使用率、内存消耗和存储I/O等云基础设施指标会共同演变,并通过联合建模而受益。同样,零售需求受促销活动影响很大,而能源消耗模式则受天气条件驱动。

为了解决这一限制,我们推出了Chronos-2,一个旨在以零样本方式处理任意预测任务(单变量、多变量和含协变量预测)的基础模型。Chronos-2利用上下文学习来实现这些能力,而无需额外训练。

对于多变量预测,Chronos-2可以联合预测多个共同演化的时间序列,捕捉依赖关系以提高整体准确性。例如,云运维团队可以联合预测CPU使用率、内存消耗和存储I/O,以便在资源瓶颈发生之前进行预判。

对于含协变量预测,Chronos-2可以整合影响预测的外部因素。该模型支持仅过去已知的协变量(如预示未来趋势的历史流量数据)和未来已知的协变量(如预定的促销活动或天气预报)。它还处理类别型协变量,例如特定的节假日或促销类型。例如,零售商可以在预测需求时考虑计划的促销活动和节假日安排,以优化库存水平。

Chronos-2增强的上下文学习能力还通过实现跨学习(模型在多个单变量时间序列间共享信息)改进了单变量预测,从而产生更准确的预测。这对于冷启动场景尤其有价值:一家开设新配送中心的物流公司可以利用现有设施的模式来生成准确的预测,即使其运营历史数据极少。

核心技术:架构与训练

构建像Chronos-2这样的通用TSFM需要在两个方面进行创新:模型架构和训练数据。下游预测任务在维度数量及其语义内容上各不相同。由于无法预先知道变量在未见过的任务中将如何相互作用,模型必须从可用的上下文中推断这些相互作用。

分组注意力机制:通过允许在任意大小的时间序列组内进行信息交换来解释这些相互作用。例如,如果Chronos-2正在预测云指标,CPU使用模式可以为内存消耗预测提供信息。分组注意力也可以将协变量考虑在内,例如,使用促销计划中的信息来帮助预测需求。

训练语料库:与架构创新同等重要。一个通用的TSFM必须在异构的时序任务上进行训练,但具有多变量依赖性和信息性协变量的高质量预训练数据是稀缺的。为了解决这个问题,我们通过对从基础单变量生成器中采样的时间序列施加多变量结构,生成了合成时间序列数据。

完整的Chronos-2流程。输入的时间序列(目标值和协变量)首先通过一种稳健的缩放方案进行归一化,之后添加时间索引和掩码元特征。得到的序列被分割成不重叠的块,并通过一个残差网络映射到高维嵌入。核心Transformer堆栈处理这些块嵌入,并为输入中被掩码掉的未来块生成多分位数输出。每个Transformer块在时间注意力和分组注意力层之间交替:时间注意力层聚合单个时间序列内各块的信息,而分组注意力层在每个块索引处聚合组内所有序列的信息。该图展示了两个多变量时间序列,每个都带有一个已知协变量,对应的组分别用蓝色和红色突出显示。此示例仅供说明;Chronos-2支持任意数量的目标变量和可选的协变量。

性能评估

经验评估证实,Chronos-2代表了TSFM能力的一次飞跃。在涵盖广泛预测任务(单变量、多变量和含协变量)的综合时序基准测试fev-bench上,Chronos-2以较大优势优于现有的TSFM。我们在含协变量任务上看到了最大的收益,展示了Chronos-2在这种实际重要场景中的优势。在GIFT-Eval基准测试中,Chronos-2在预训练模型中排名第一。与它的前身Chronos-Bolt相比,Chronos-2在直接比较中实现了超过90%的胜率。

在fev-bench的协变量子集上,Chronos-2在单变量模式下的结果以及通过上下文学习获得的相应增益。上下文学习在包含协变量的任务上带来了巨大收益,展示了Chronos-2通过上下文学习有效使用协变量的能力。除了Chronos-2,只有TabPFN-TS和COSMIC支持协变量,而Chronos-2以很大优势优于所有基线(包括TabPFN-TS和COSMIC)。

在GIFT-Eval时序基准测试上的结果。关于(a)概率预测和(b)点预测指标的平均胜率和技能分数。胜率和技能分数都是越高越好。Chronos-2优于之前表现最好的模型TimesFM-2.5和TiRex。

总结

Chronos-2的上下文学习能力使其成为一个可行的通用预测模型,可以直接用于生产流程,从而显著简化流程。Chronos-2现已开源。我们邀请研究人员和从业者参与Chronos-2的研究,共同探索时序基础模型的前沿领域。FINISHED