机器学习解偏微分方程:文献中的过度乐观与评估准则

2 阅读6分钟

一项新的研究指出,在关于机器学习模型如何求解特定类型方程的科学期刊文章中,存在普遍的过度乐观倾向。研究人员提出了两条报告结果的准则,并呼吁进行系统性变革,以提升报告的清晰度与准确性。

围绕机器学习(人工智能的一种形式)的热潮,很容易让人感觉这类技术解决所有科学问题只是时间问题。虽然常有令人印象深刻的论断,但这些论断并不总能经得起推敲。机器学习或许对解决某些问题有用,但在其他问题上则表现不足。

在《自然·机器智能》期刊的一篇新论文中,某机构的研究人员对比较机器学习与传统方法求解流体相关偏微分方程的研究进行了系统性回顾。这类方程在许多科学领域都至关重要,包括为电网发展聚变能的等离子体研究。

研究人员发现,在求解流体相关偏微分方程时,将机器学习方法与传统方法进行比较的结果,往往偏向于机器学习方法。他们还发现,负面结果总是被低估。他们提出了进行公平比较的规则,并认为要解决这些似乎具有系统性的问题,文化层面的变革同样不可或缺。

“我们的研究表明,尽管机器学习潜力巨大,但当前文献在描绘机器学习如何求解这类特定方程时,呈现出的图景过于乐观,”该机构的计算科学副主管、该研究的首席研究员表示。

与弱基线比较结果

偏微分方程在物理学中无处不在,对于解释热传导、流体流动和波等自然现象尤为有用。例如,这类方程可用于计算放入热汤中的汤匙沿长度方向的温度分布。知道汤和汤匙的初始温度以及汤匙的金属材质,就可以利用偏微分方程来确定汤匙放入汤中后任意时刻、任意点的温度。这类方程在等离子体物理学中也有应用,因为许多描述等离子体的方程在数学上与描述流体的方程相似。

科学家和工程师们已经开发出多种求解偏微分方程的数学方法。其中一种方法被称为数值方法,因为它是以数值方式而非解析或符号方式求解问题,以找到那些难以或无法精确求解问题的近似解。最近,研究人员开始探索是否可以利用机器学习来求解这些偏微分方程,目标是比使用其他方法更快地解决问题。

系统综述发现,在大多数期刊文章中,机器学习并未像宣传的那样成功。“我们的研究表明,在某些情况下,机器学习在求解流体相关偏微分方程时可能稍快,但在大多数情况下,数值方法更快,”论文的第一作者表示。

数值方法在精度和运行时间之间存在一个基本的权衡。“如果你花更多时间解决问题,你就能得到更精确的答案,”第一作者说,“许多论文在比较时并未考虑到这一点。”

此外,不同的数值方法之间,速度也可能存在巨大差异。第一作者认为,机器学习方法要想发挥作用,其性能需要优于最优秀的数值方法。然而他的研究发现,比较的对象往往是那些比最快方法慢得多的数值方法。

公平比较的两条准则

因此,该论文提出了两条准则来尝试克服这些问题。第一条准则是,只将机器学习方法与具有相同精度或相同运行时间的数值方法进行比较。第二条准则是,将机器学习方法与一种高效的数值方法进行比较。

在被研究的82篇期刊文章中,有76篇声称其机器学习方法在与数值方法比较时表现更优。研究人员发现,这些声称机器学习方法更优的文章中,有79%实际上使用了薄弱的基线,违反了至少一条准则。有四篇文章声称其性能逊于数值方法,两篇文章声称性能相当或各有优劣。

“很少有文章报告机器学习表现更差,这并不是因为机器学习几乎总是做得更好,而是因为研究人员几乎从不发表机器学习表现更差的文章,”第一作者说。

第一作者认为,低标准的比较往往源于学术界出版中不正当的激励。“为了让论文被接收,发表一些令人印象深刻的结果是有帮助的。这激励你让你的机器学习模型尽可能工作得好,这是好事。然而,如果你用来比较的基线方法本身效果不好,你同样也能获得令人印象深刻的结果。结果就是,你没有动力去改进你的基线,这是坏事,”他说。最终结果是,研究人员最终在他们的模型上努力工作,却没有去寻找可能的最佳数值方法作为比较的基线。

研究人员还发现了报告偏差的证据,包括发表偏差和结果报告偏差。当研究人员意识到他们的机器学习模型表现并不比数值方法更好时,选择不发表结果,就会产生发表偏差;而结果报告偏差则可能涉及在分析中丢弃负面结果,或使用非标准的成功衡量标准来使机器学习模型显得更成功。总体而言,报告偏差倾向于压制负面结果,从而造成一种整体印象,即机器学习在求解流体相关偏微分方程方面比实际情况更好。

“这个领域存在大量炒作。希望我们的工作能为使用机器学习来改进现有技术水平的原则性方法奠定基础,”该研究的首席研究员说。

为了克服这些系统性的文化问题,该研究员认为,资助研究的机构和大型会议应该采取相关政策,以防止使用薄弱的基线,或者要求更详细地描述所使用的基线及其被选中的原因。“他们需要鼓励自己的研究人员对自己研究的结果保持怀疑,”研究员说,“如果我发现了那些好得令人难以置信的结果,那么它们很可能就是不可信的。”FINISHED