不到一秒构建合成路线,这项AI技术只提出可在实验室中合成的分子

239 阅读7分钟

编辑/绿萝

设计新的功能材料是化学科学和工程的核心任务。然而,传统的分子设计过程不仅昂贵和耗时,而且严重依赖于机会和蛮力试错。机器学习模型可以提出具有特定特性的新分子,在几分钟内完成人类可能需要几个月才能手动完成的工作。

但有一个主要障碍阻碍了这些系统的发展:这些模型通常会提出在实验室中难以或不可能生产的新分子结构。

MIT 研究人员提出的一种以目标分子嵌入为条件的马尔可夫决策过程(MDP)来生成合成路线的新方法。它只建议可以合成的分子结构。该方法保证分子由可以购买的材料组成,并且这些材料之间发生的化学反应遵循化学定律。

该研究以「Amortized Tree Generation for Bottom-up Synthesis Planning and Synthesizable Molecular Design」为题,发表在 ICLR 2022 上。

与其他方法相比,该研究提出的模型提出的分子结构在流行的评价方法中得分很高,有时甚至更好,但保证是可合成的。他们的系统只需不到一秒钟的时间来提出合成途径,而其他单独提出分子然后评估其可合成性的方法可能需要几分钟。

「这个过程重新制定了我们如何要求这些模型生成新的分子结构。其中许多模型考虑的是逐个原子或逐个键地构建新的分子结构。相反,我们正在逐个构建新的分子构建块,并通过反应构建新的分子。」该论文的作者 ,MIT 化学工程系、电气工程与计算机科学系的 Henri Slezynger 职业发展助理教授 Connor Coley 说。

构建模块

研究人员构建的模型以自下而上的方式构建合成树,从可用的构建块开始,逐步构建到更复杂的分子。生成取决于目标分子的嵌入。如果目标分子位于模板集和构建块可到达的化学空间中,则最终的根分子应该与输入的目标分子匹配或至少相似。

图 1:迭代生成过程。

为了创建分子结构,该模型模拟了合成分子的过程,以确保它可以被生产出来。

该模型给出了一组可行的构建块,它们是可以购买的化学物质,以及可以使用的有效化学反应列表。这些化学反应模板由专家手工制作。通过只允许某些化学物质或特定反应来控制这些输入,研究人员可以限制新分子的搜索空间有多大。

该模型使用这些输入来构建一棵树,方法是选择构建块并通过化学反应将它们连接起来,一次一个,构建最终的分子。在每个步骤中,随着额外的化学物质和反应的加入,分子变得更加复杂。

它输出最终的分子结构以及合成它的化学物质和反应树。

图 2:模型概述。

「我们不是直接设计产品分子本身,而是设计一个动作序列来获得该分子。这使我们能够保证结构的质量,」 论文一作 Wenhao Gao 说。

为了训练他们的模型,研究人员输入了一个完整的分子结构和一组构建块和化学反应,模型学习创建一个合成分子的树。在查看了数十万个示例后,该模型学会了自己提出这些合成路径。

分子优化

训练后的模型可用于分子优化。研究人员定义了他们希望在最终分子中实现的某些特性,给定某些构建块和化学反应模板,并且该模型提出了可合成的分子结构。

「令人惊讶的是,您可以使用如此小的模板集复制大部分分子。您不需要那么多构建块来生成大量可用的化学空间供模型搜索。」Mercado 说。

使用条件生成重建分子: 研究人员通过评估模型重建可合成分子的能力来测试该模型。

表 1:「可达」和「不可达」目标分子的合成树构建结果。

该模型可以从保留的测试集中重建 51% 的可到达分子。与需要几十秒甚至几分钟的典型自顶向下的综合规划方法(即逆向合成)相反,该研究中自下而上的方法只需要 1 秒贪婪地构建一个 k = 1 的树。

他们的技术比其他一些方法更快,因为模型不需要为树中的每个步骤搜索所有选项。Gao 解释说,它有一套明确的化学物质和反应可供使用。

可合成结构类似物的鉴定: 图 3 说明了目标分子和产物分子的特性之间的相关性。研究了 SA 分数、QED、CLogP 和分子量,观察到大多数产品特性与相应的输入特性呈正相关。

图 3:目标分子和产物分子的特性之间的相关性。

最不成功的案例是 QED,因为它对结构的高度敏感结构-活性景观指数 (SALI) 量化的变化。总体而言,该模型可以为目标分子提出合理的可合成类似物,尤其是当所需的性质与分子结构高度相关时。

给定与药物发现相关的预言功能,优化分子结构: 当他们使用他们的模型提出具有特定性质的分子时,他们的方法提出了更高质量的分子结构,这些结构比其他方法具有更强的结合亲和力。这意味着这些分子将能够更好地附着在蛋白质上并阻止某种活动,例如阻止病毒复制。

例如,GSK3β 抑制剂优化的案例,他们的模型提出了一种结构比其他基线简单得多的高分分子。当提出一种可以与 SARS-Cov-2 对接的分子时,他们的模型提出了几种分子结构,这些分子结构可能比现有的抑制剂更能与病毒蛋白结合。然而,正如作者承认的那样,这些只是计算预测。

图 4:可合成分子设计的结果。

为计算机辅助合成规划提供新的范式

Gao 说:「有很多疾病需要解决,我希望我们的方法可以加速这一过程,这样我们就不必每次都筛选数十亿个分子来寻找疾病靶点。相反,我们只需指定我们想要的特性,它就可以加速寻找候选药物的过程。」

他们的模型还可以改善现有的药物发现管道。Mercado 说,如果一家公司已经确定了一种具有所需特性但无法生产的特定分子,他们可以使用这个模型来提出与其非常相似的可合成分子。

现在他们已经验证了他们的方法,该团队计划继续改进化学反应模板,以进一步提高模型的性能。借助额外的模板,他们可以对某些疾病目标进行更多测试,并最终将模型应用于药物发现过程。

「理想情况下,我们需要能够自动设计分子并同时快速为我们提供合成树的算法,」英国微软剑桥研究院(Microsoft Research Cambridge) 的机器学习药物发现团队的负责人 Marwin Segler 说,「Coley 教授和团队的这种优雅方法是解决这个问题的重要一步。虽然早期有通过合成树生成进行分子设计的概念验证工作,但这个团队确实做到了。这是第一次,他们在有意义的规模上展示了出色的性能,因此它可以对计算机辅助分子发现产生实际影响。这项工作也非常令人兴奋,它最终可以为计算机辅助合成规划提供新的范式。这可能会对该领域的未来研究产生巨大的启发。」

论文链接:arxiv.org/abs/2110.06…

参考内容:techxplore.com/news/2022-0…