基础模型时代的科学计算

0 阅读7分钟

基础模型时代的科学计算

为了变革科学领域,基础模型需要满足物理约束、进行不确定性量化,并采用专门的技术来克服数据稀缺性,同时保持科学的严谨性。

作者:Danielle Maddix Robinson,2025年9月26日,预计阅读时间9分钟。

概率时间序列预测

单变量时间序列预测的任务是根据历史数据和协变量预测未来的时间点。概率时间序列预测旨在基于过去的观测值,提供未来点的分布。

传统的局部统计方法(如自回归积分滑动平均模型和指数平滑法)已被广泛使用。最近,跨大量相关时间序列训练的全局深度学习模型(包括DeepAR和MQ-CNN/MQ-Transformer)逐渐兴起。

受大语言模型成功的启发,我们提出了时间序列基础模型Chronos,旨在回答“能否将开箱即用的语言模型应用于时间序列”这一问题。Chronos将每个历史数据点视为一个标记,并使用T5语言模型作为生成模型,以自回归方式执行下一个标记的预测。Chronos显著优于传统的统计方法和直接在单个数据集上训练的专用深度学习模型。

为了处理数据差异,我们依赖合成预训练数据。通过应用TSMix方法混合不同频率的时间序列,并同时利用高斯过程生成的合成数据,我们增加了数据量。这些技术增强了模型的鲁棒性和泛化能力。

设计TSFM的另一个关键挑战是如何将连续的时间序列数据映射为离散标记,作为LLM的输入。Chronos通过简单的分箱、量化以及小波标记化实现这一点,而Chronos-Bolt则使用连续嵌入。

一个有趣且有点令人惊讶的发现是:尽管Chronos-Bolt及其后续模型融入了更经典的预测方法,在经典时间序列基准数据集上表现更好,但基于原始LLM的Chronos在混沌和动力系统数据集上表现最强。这归因于Chronos模仿历史而不回归均值的固有能力,这与经典时间序列方法或其他TSFM不同。Chronos已广泛应用于科学领域,包括水资源、能源和交通预测。

时空预测

与单变量时间预测不同,时空预测需要预测包含空间和时间维度的未来点。这种预测在计算流体动力学、天气预报甚至地震余震预测中都很重要。

传统上,计算流体动力学的时空动态是通过数值方法(包括有限差分、有限体积和有限元方法)求解的。这些方法长期以来为偏微分方程求解器提供动力,而偏微分方程是控制流体动力学的物理方程(例如纳维-斯托克斯方程)。最近,深度学习模型显示出潜力,特别是在短期天气预报和空气动力学方面。

天气预报

深度学习天气预报模型的发展已经进步到与传统数值天气预报模型相媲美的程度。这在一定程度上归功于丰富的真实世界数据,包括ERA5数据集。最近DLWP的激增引发了一个问题:哪种方法最合适?

我们首次在相同的参数数量、训练协议和输入变量集下,对每个DLWP模型在二维不可压缩纳维-斯托克斯动力学(具有不同雷诺数)以及真实世界的WeatherBench数据集上进行了对照研究。

我们在准确性和内存消耗方面发现了权衡。例如,在WeatherBench数据集上,我们展示了SwinTransformer对中短期预报的有效性。重要的是,对于长达一年的长期气象推演,我们观察到在构建球体球形数据表示的架构(即基于图神经网络的GraphCast和球形FNO)中,稳定性和物理合理性表现良好。

尽管DLWP模型功能强大,但一个可能令人惊讶的发现是,随着参数数量的增加,这些模型趋于饱和,并不满足LLM所具有的神经缩放定律。

空气动力学

最近,人们研究了深度学习模型,以加速传统数值求解器计算成本高昂的领域中的模拟(高精度逼近3D时空数据需要精细网格)。即使相对于传统求解器存在轻微的精度损失,深度学习模型在迭代设计过程中仍然很有帮助。例如,流动的快速近似可以帮助工程师快速测试和迭代几种不同的汽车几何形状或飞机设计。

数据稀缺的主题在此再次浮现。生成相关的训练数据非常昂贵,因为它需要运行数值求解器。我们发布了高保真3D数据集,包括DrivAerML、WindsorML和AhmedML。这些开放数据集已被证明很有价值:EmmiAI将它们用作构建汽车动力学基础模型的关键组成部分。

此类数据集对于在数据缺乏的科学领域提高泛化能力至关重要。这种需求是广泛的,这凸显了丰富合成数据的重要性,特别是在代表不同物理(来自各种偏微分方程、边界条件和几何形状)的应用中。

物理约束与不确定性量化

违反物理约束和确定性预测也限制了深度学习和基础模型的广泛采用。深度学习模型已被证明会违反已知的物理定律(例如质量、能量和动量守恒)以及已知的边界条件(例如允许热通量穿过绝缘体)。

强制执行这些约束可以得到物理上准确的解,并指导学习过程产生更准确的预测。例如,在具有挑战性的两相流问题(例如模拟空气和水之间的移动界面)中,我们的ProbConserv模型(强制执行守恒定律)提高了预测精度、激波位置检测和域外性能。

我们还可以对生成模型(例如扩散模型或函数流匹配模型)强制执行物理约束,以保证生成具有物理意义的结果。例如,用于降水临近预报的潜在扩散模型PreDiff,使用一种知识对齐方式将物理知识作为软约束:在去噪生成过程中,将较低的概率分配给物理意义较小的样本。我们基于FFM的ECI采样使用类似于ProbConserv的投影方法,输出保证满足已知初始条件、边界条件和守恒定律的各种偏微分方程的生成结果。

这些方法的另一个重要特性是它们提供不确定性量化和概率预测,这在科学和安全关键领域以及相应的下游任务中至关重要。例如,PreDiff本质上提供了不确定性量化,与确定性方法相比,这带来了更高分辨率和更清晰的预测。

结论

总之,为了使基础模型得到广泛采用,确保可靠的物理约束满足和稳健的不确定性量化对于获得领域科学家的信任至关重要。通过科学家和机器学习专家之间的跨学科合作,这些模型的增长潜力是无限的。

致谢:感谢Bernie Wang、Michael W. Mahoney、Fatir Abdul Ansari、Boran Han、Xiyuan Zhang和Annan Yu。FINISHED