基础模型在科学计算时代的技术应用
深度学习随着大语言模型(LLM)的出现和快速普及已展现出变革性影响。LLM及其他所谓的基础模型是推进纯科学和应用科学发展的潜在强大工具。然而,尽管基础模型在语言和计算机视觉领域已发挥作用,但在计算流体动力学(CFD)等科学领域中的应用速度较慢。这引发了一个问题:要使深度学习基础模型在科学应用中发挥更重要作用需要什么条件?
概率时间序列预测
我们从单变量时间序列预测预测开始,这在零售需求预测到科学预测等领域都有应用。通过概率时间序列预测,我们的目标是提供基于过去观测条件的未来点分布。
传统或局部统计方法被广泛使用,但最近我们看到跨大量相关时间序列训练的全局深度学习模型有所增加。但能否进一步提出用于时间序列预测的基础模型?
受LLM成功的启发,去年我们提出了时间序列基础模型(TSFM)Chronos,它旨在回答"能否将现成的语言模型应用于时间序列?"的问题。Chronos将每个历史数据点视为令牌,并使用T5语言模型作为生成模型来执行下一个令牌预测,以自回归方式继续。
为处理数据差异,我们依赖Chronos的合成预训练数据。我们通过应用TSMix方法混合不同频率的时间序列,同时依赖高斯过程生成的合成数据来增加数据量。
设计TSFM的另一个关键挑战是如何将连续时间序列数据映射到离散令牌作为LLM的输入。Chronos通过简单的分箱或量化以及小波令牌化实现这一点。
时空预测
与单变量时间预测不同,时空预测涉及预测包含空间和时间维度的未来点。这种预测在CFD、天气预报甚至地震余震预测中都很重要。
传统上,CFD的时空动力学通过数值方法解决,包括有限差分、有限体积和有限元方法。最近,深度学习模型显示出潜力,特别是在短期天气预报和空气动力学方面。
天气预报
深度学习天气预报(DLWP)模型的进展已达到与传统数值天气预报(NWP)模型相媲美的程度。这部分归因于真实世界数据的丰富性,包括ERA5数据集。
我们比较对比了DLWP模型中最突出的骨干网络。我们是第一个在具有不同雷诺数的二维不可压缩Navier-Stokes动力学和真实世界WeatherBench数据集上,对每个DLWP模型使用相同参数计数、训练协议和输入变量集进行受控研究的。
我们在准确性和内存消耗方面发现了权衡。例如,在WeatherBench数据集上,我们显示SwinTransformer对于短到中期预报有效。重要的是,对于长达一年的长期天气 rollout,我们在构建球面数据表示的架构中观察到稳定性和物理合理性。
空气动力学
最近,DL模型被研究作为在传统数值求解器计算成本高的领域加速模拟的方法。即使相对于传统求解器精度略有损失,DL模型在迭代设计过程中也很有帮助。
数据稀缺的主题在这里重新出现。生成相关训练数据极其昂贵,因为它需要运行数值求解器。我们发布了高保真3D数据集,包括DrivAerML、WindsorML和AhmedML。
物理约束和不确定性量化
违反物理约束和确定性预测也限制了DL和基础模型的广泛采用。DL模型已被证明会违反已知物理定律,例如质量、能量和动量守恒,以及已知边界条件。
执行这些约束可以导致物理准确的解决方案,并指导学习过程产生更准确的预测。例如,在两相流问题的挑战性案例中,我们的ProbConserv模型执行守恒定律,提高了预测准确性、激波位置检测和域外性能。
我们还可以对生成模型强制执行物理约束,例如扩散或功能流匹配模型(FFM),以保证物理上有意义的生成。例如,我们用于降水临近预报的潜在扩散模型PreDiff,使用一种知识对齐将物理知识作为软约束:在去噪生成过程中,为较少物理样本分配较低概率。
这些方法的另一个重要特性是它们提供不确定性量化(UQ)和概率预测,这在科学和安全关键领域以及相应的下游任务中至关重要。
结论
总之,为了使基础模型获得广泛采用,确保可靠的物理约束满足和稳健的不确定性量化对于获得领域科学家的信任至关重要。通过科学家和机器学习专家之间的跨学科合作,这些模型的潜在增长是无限的。