一种基于决策树的 RL 策略，已构建54种元素模型，用于设计和发现新材料编辑

编辑 | 萝卜皮

将树搜索与深度学习相结合的强化学习 (RL) 方法在搜索非常大但离散的动作空间方面取得了显著成功，例如在国际象棋、将棋和围棋中。然而，许多现实世界的材料发现和设计应用涉及多维搜索问题和具有连续动作空间的学习领域。探索材料的高维势能模型就是一个例子。

传统上，这些搜索非常耗时（对于单个批量系统，通常需要几年时间），并由人类直觉或专业知识驱动，最近由全局/局部优化搜索驱动，这些搜索存在收敛问题和/或与搜索维度不匹配。

与离散动作和其他基于梯度的方法不同，美国阿贡国家实验室（Argonne National Laboratory）的研究人员引入了一种基于决策树的 RL 策略，该策略结合了改进探索的改进奖励、播放期间的有效采样和增强利用的「窗口缩放方案」，以实现对连续动作空间问题的高效和可伸缩搜索。使用高维人工景观和控制 RL 问题，该团队成功地将新方法分别与全局优化方案以及最先进的策略梯度方法进行了基准测试。

研究人员展示了它对周期表中 54 种不同元素系统以及合金的潜在模型（基于物理的和高维神经网络）参数化的功效。同时，他们分析了潜在空间中不同元素的误差趋势，并将其起源追溯到元素结构多样性和元素能量表面的平滑度。从广义上讲，该 RL 策略将适用于许多其他涉及连续动作空间搜索的物理科学问题。

该研究以「Learning in continuous action space for developing high dimensional potential energy models」于 2022 年 1 月 18 日发布在《Nature Communications》。

基于强化学习 (RL) 和决策树（例如，蒙特卡洛树搜索）的 RL 算法正在成为强大的机器学习方法，允许模型直接与环境交互并从环境中学习。RL 在解决棘手的搜索空间问题方面取得了令人印象深刻的能力，例如在游戏（如国际象棋、将棋和围棋）、化学合成规划或药物发现中。

然而，这些方法仅限于离散的动作空间——例如，「将棋子移动到 e4」、「添加丙酮试剂」或「去除化学基团 -COOH」。许多现实世界的问题，包括材料发现和设计中的几个重大挑战，都涉及通过连续动作空间进行决策和搜索。例如，搜索最佳模型参数/权重、探索低能材料相或逆向设计、优化实验参数或合成材料特性等问题。

虽然非常希望将 RL 方法的优点转化为解决材料设计中的搜索问题，但挑战在于其连续、复杂和多维的性质，并且由于大量退化和/或次优解决方案而变得更加复杂。RL 更成功的版本之一涉及使用蒙特卡洛树搜索 (MCTS)，它利用播放从当前状态中选择最佳可能动作（具有最大奖励）。

在这里，播放是指模型中允许它通过与环境交互来学习的随机动作。播放次数越多，模型对奖励的估计越好，模型动作选择就越有希望。值得注意的是，MCTS 在树结构中执行此搜索，不断增长导致最大奖励（开发）的树的叶子或未充分采样的叶子（探索）。

重要的是要理解，当动作空间是离散的时，父叶将展示有限的可能子叶，所有（或部分）子叶都可以评估它们的突出性。当动作空间连续时，可能的子叶数量是无限的，与父叶的深度无关，这使得在连续动作空间中使用 MCTS 似乎是不可能的。

图示：用于探索高维势参数表面的连续动作 MCTS 算法的示意图。（来源：论文）

最近，针对连续动作空间问题开发 MCTS 的尝试正在获得动力。与传统的离散 MCTS 和近期的连续动作空间 MCTS 方法显著不同，该团队引入了三个概念来解决连续动作空间问题：

（1）避免退化的唯一性函数；

（2）将树深度与动作空间相关联；

（3）实施播放的自适应采样。

第一个确保在 MCTS 期间仅探索独特的叶子。这避免了两个最初分离的 MCTS 分支收敛到连续搜索空间的同一区域的常见问题。更重要的是，这解决了在多个物理问题中经常遇到的相同（退化）解的多个表示问题（例如，可以使用不同的晶胞定义来表示相结构）。

第二个概念为算法提供了一个有意义的结构，子叶在比父节点更窄的区域内搜索。

第三个，为了提高播放的质量，特别是在高维搜索空间的情况下，随机模拟偏向于对那些更接近父叶的区域进行采样。

研究人员将该方法部署到基于物理和神经网络模型的代表性高维和连续参数搜索，该模型涉及在元素纳米团簇和块状系统的高维势能表面 (PES) 中导航。从历史上看，这代表了分子建模的一项重大挑战，并且已经使用人类的直觉和专业知识来完成，需要多年的艰苦努力。

最近，针对这项任务出现了多种全局/局部优化方法，但它们要么存在收敛问题，要么不能很好地适应搜索维度，要么不能包含重要的无梯度知识（例如，动态稳定性）。

几十年来，这些方法已被用于开发大量基于多参数物理的模型，主要针对体系统及其静态/动态特性。纳米级簇的构型多样性和复杂的 PES，尤其是那些远离平衡的簇，构成了重大挑战。

因此，捕获纳米级特性和动力学的外推显示出与基本事实的严重偏差（使用高保真第一性原理模型估计，例如密度泛函理论）。

图示：使用连续作用 MCTS 对纳米团簇的势能表面进行高通量探索后的 HyBOP 模型性能。（来源：论文）

该团队通过为周期表中选择的 54 个元素开发混合键序势（18维参数空间），捕捉各种键合环境，并证明该方法的通用性、高效性和稳健性，进一步证明连续作用-MCT（c-MCT）的有效性。

对于每个元素，研究人员通过拟合数千个仔细采样不同大小的纳米团簇的能量进行训练，这些纳米团簇以其复杂的化学性质而闻名，并且难以使用传统的优化策略进行训练。

他们的 ML 训练的键序势在能量、原子力和动态稳定性方面显示出比当前基于物理的势模型显着的性能改进，并且可以很好地概括模型训练期间未包括的动态特性。

图示：模型预测误差与元素结构多样性的趋势。（来源：论文）

总之，研究人员基于强化学习和决策树的强大思路，在高维连续动作空间 (c-MCTS) 中开发一种有效的搜索算法。该算法将蒙特卡洛树搜索扩展到具有三个新概念（唯一性标准、窗口缩放和自适应采样）的连续动作空间，以加速搜索。c-MCTS 广泛优于最先进的元启发式和其他优化方法。

图示：各种具有代表性的元素系统的簇的动态稳定性。（来源：论文）

该团队使用这种方法为元素周期表中的 54 个元素开发了准确的键序势，这是一项相当不平凡的壮举，如果是传统方法可能需要数年的努力。

一方面，所开发的潜力将用于材料模拟界，因为它们能够准确地捕捉跨越大构型空间的能量和原子力，使其在催化领域具有吸引力，尤其是对于涉及形成局部活性中心的单原子催化剂的问题。

另一方面，开发的 c-MCTS 将有助于解决材料发现中的巨大挑战，这些挑战通常涉及在连续空间中进行搜索。

论文链接：www.nature.com/articles/s4…