蛋白质设计的机器学习时代,总结为四种关键方法

617 阅读13分钟

蛋白质设计和工程是分子生物学的基本目标,在医学、生物技术和材料科学等各个领域有着广泛的应用。几十年来,科学家们一直在探索各种方法来设计新型蛋白质和对现有蛋白质进行工程改造以微调其特性。虽然基于物理的方法在找到折叠成给定蛋白质结构的氨基酸序列方面取得了一些成功,但深度学习方法的最新发展显示出更高的成功率和多功能性。在本文中,我将概述四种用于蛋白质设计和工程的著名机器学习 (ML) 工具及其在推进该领域的意义。

除了这些工具将立即对化学和生物科学产生影响之外,它们引入的方法甚至项目本身也为数据科学家、机器学习从业者和人工智能研究人员提供了令人兴奋的机会,让他们思考与化学和化学合作的新想法和方式。最终可以永久应用计算机科学的生物学家。事实上,我将在下面讨论的工具展示了应用不同类型的深度学习算法来应对生物技术中特别复杂的挑战的能力。通过利用这些工具,数据科学、机器学习和人工智能领域的专业人士也可以为医学、生物技术和材料科学的进步做出贡献,见证他们自己专业领域的直接影响,甚至是在该领域之外!

简而言之,我将按发布顺序介绍名为 ProteinMPNN、ESM2-InverseFold、RoseTTaFold Diffusion 和 MASIF-Seed 的工具。重要的是,在 Deepmind 凭借其 AlphaFold 模型进入结构生物学领域后,所有这些模型都开始出名:

一年多来免费使用 AlphaFold 2 以及它引发的生物学革命

对蛋白质结构进行可靠的建模,预测它们与其他生物分子甚至蛋白质的相互作用……

medium.com

蛋白质MPNN

ProteinMPNN 由 Baker 实验室开发,是有史以来第一个用于蛋白质设计的 ML 工具,它使用经过实验测试的设计蛋白质发布。

该模型基于编码器-解码器神经网络,是第一个显示生成经实验验证可按预期折叠的蛋白质序列的此类工具。2022 年底发表在 《科学》杂志上的两篇论文“使用 ProteinMPNN 进行基于深度学习的稳健蛋白质序列设计”和“幻觉对称蛋白质组装”展示了该工具对各种蛋白质设计问题的方法(前一篇论文)和适用性(后一篇论文).

我专门写了一篇关于 ProteinMPNN 的博客文章,无论如何这篇文章已经有点“老”了(尽管发表不到一年,证明了该领域的发展速度有多快!)。所以这里就不多说了,大家可以看看我之前的文章:

新的深度学习工具可高精度设计新型蛋白质

Baker 实验室的这款新软件设计的蛋白质可以在湿实验室中实际工作。你可以用它来……

towardsdatascience.com

ESM-反向折叠

ESM2-InverseFold 由 Meta 开发,基于 ESMFold 蛋白质语言模型,但被设计为从结构中生成蛋白质序列,而不是从序列中预测结构。

ESMFold 被发现可以产生高度多样化的蛋白质序列,远远超出已知的自然序列范围。预印本“语言模型超越天然蛋白质”描述了它的核心功能,并展示了几个成功设计的例子。

要了解有关 ESMFold 的更多信息,请查看我之前的帖子:

巨大的蛋白质语言模型如何破坏结构生物学

结构预测的准确度与 AlphaFold 相似,但速度提高了 60 倍——并且还开发了新的 AI 方法……

towardsdatascience.com

这是由它设计的蛋白质设计工具“ESM-InverseFold”的预印本:

语言模型超越了天然蛋白质

从整个进化过程中的序列中学习蛋白质的设计模式可能对生成蛋白质有希望……

www.biorxiv.org

ESM-InverseFold 是一种蛋白质设计工具,它使用机器学习从头生成自然界中从未见过的蛋白质。该工具基于语言模型,这些语言模型已经使用掩码语言建模在整个进化过程中对数百万种不同的天然蛋白质进行了训练。这些模型生成将序列与结构设计联系起来的图案,并可以将它们应用于新的序列和结构环境。ESM-InverseFold 提供两种生成性蛋白质设计任务:固定骨架设计和自由生成。固定骨干设计涉及通过使用模拟退火的马尔可夫链蒙特卡罗从语言模型指定的条件分布中获取低温样本来生成蛋白质序列。自由生成完全去除了对结构的约束,通过从语言模型指定的序列和结构的联合分布中采样来生成新的蛋白质。ESM-InverseFold 显示出很高的实验成功率,在 67% 的评估蛋白质中通过尺寸排阻色谱法产生可溶性和单体物质。正如作者所展示的,该工具中使用的语言模型能够访问超越天然蛋白质的设计空间,根据蛋白质设计的深层模式(包括在天然蛋白质中发现的结构基序)生成新颖的解决方案。

RoseTTAFold 扩散

RoseTTAFold Diffusion 基于扩散模型,是 Baker 实验室的最新工具,也预印在 bioRxiv 中。

通过整合结构预测网络和……广泛适用和准确的蛋白质设计

最近在使用深度学习方法设计新蛋白质方面取得了相当大的进展[1][1]-[9][2]。尽管…

www.biorxiv.org

从 Baker 的实验室博客中,这是目前用于蛋白质设计的 Rosetta 套件中性能最好的方法:

蛋白质设计的扩散模型

由贝克实验室的科学家 Joseph Watson、David Juergens、Nate Bennett、Brian Trippe 和 Jason Yim 领导的团队创​​造了……

www.bakerlab.org

RoseTTaFold Diffusion 是一种基于去噪扩散概率模型的生成模型,该模型使用深度学习从简单的分子规范中生成多样化、复杂和功能性的蛋白质。它在蛋白质结构去噪任务上微调 RoseTTaFold 结构预测网络,以获得蛋白质骨架的生成模型。RoseTTaFold Diffusion 通过在训练期间从蛋白质数据库中采样的结构上模拟随机步骤的噪声过程来生成蛋白质结构。该方法通过将上一步的噪声坐标转换为预测结构来生成新的蛋白质结构,以模型的输入为条件,其中可以包括部分序列、折叠信息或固定的功能基序坐标。该方法使用两种不同的策略进行训练:1) 以类似于“规范”扩散模型的方式,每个时间步的预测独立于先前时间步的预测,以及 2) 自我调节,其中模型可以在时间步之间以先前的预测为条件。RoseTTaFold Diffusion 可以在没有额外输入的情况下或通过调节各种输入来生成蛋白质结构,并且它可以生成多种蛋白质结构,与任何已知蛋白质结构的整体结构相似性很小。该方法优于其他用于蛋白质结构生成的深度学习方法,并且已被证明在一系列广泛的设计挑战中具有最先进的性能,包括蛋白质单体设计、蛋白质结合剂设计、对称低聚物设计、酶活性位点支架,

MaSIF-种子

MaSIF-seed,联合工作

迈克尔·布朗斯坦

的实验室和我所在机构的 Correia 蛋白质设计实验室(

EPFL 扩展学校

) 并于本月发表在 《自然》杂志上,专门研究通过学习的蛋白质表面指纹设计蛋白质相互作用:

从头设计蛋白质与学习表面指纹的相互作用 - 自然

蛋白质之间的物理相互作用对于大多数控制生命的生物过程至关重要 1。但是,那…

www.nature.com

该工具在设计蛋白质单体和寡聚体方面表现出色,包括目标结合蛋白和自然界中不可见的折叠。它是在自己团队之前的工作 Masif 的基础上发展起来的,Masif 是一种预测表面特征相互作用的 ML 工具。

与其他方法相比,Masif-seed 是一种以表面为中心的方法,它侧重于蛋白质的表面特性和表面斑块之间的相互作用。它的神经网络输出矢量指纹描述符,这些描述符在相互作用的蛋白质对之间是互补的,在非相互作用对之间是不同的。匹配的表面补丁与目标站点对齐并使用第二个神经网络进行评分,该网络输出接口后对齐分数以进一步提高表面描述符的辨别性能。与其他工具相比,MaSIF-seed 在基于丰富的表面特征区分真正的结合剂和诱饵方面表现出卓越的性能。此外,它可能比其他方法更快、更准确。

介绍该方法的论文描述了几个示例,在这些示例中,该工具用于设计从头蛋白结合剂以参与具有挑战性和与疾病相关的蛋白质靶标。使用 MaSIF-seed 的完整蛋白质设计流程涉及几个步骤,从识别蛋白质上具有高蛋白质结合倾向的目标位点,然后搜索源自片段的表面指纹数据库的子集,以找到可以结合的种子针对选定的站点,然后使用专门的 Rosetta 协议将它们移植到与种子结合模式兼容的蛋白质支架上。最后,binder 界面得到优化,在实际应用中,通过诱变库对设计进行实验筛选,以微调最终序列。

设计蛋白质序列以按照科学家的需要折叠和工作

在所有四种工具中,模型的输入是一个主干结构,可能具有某些氨基酸特性受限,模型在其上制作预期按预期折叠的蛋白质序列。虽然这些模型可以生成相互作用的蛋白质序列,但它们不能在设计过程中自然地考虑非蛋白质分子。这种限制阻碍了它们在涉及与非蛋白质分子结合的设计中的应用,除非用户根据所需功能手动专门固定某些残基。虽然效率有点低,因为它需要了解感兴趣的系统,但这种策略已经在 Baker 实验室于 2023 年初设计的一种酶中发挥作用:

使用深度学习从头设计荧光素酶 - 自然

从头酶设计试图引入活性位点和底物结合口袋,预计这些口袋会催化……

www.nature.com

就像在那个例子中一样,这些工具的开发为设计新蛋白质和改造现有蛋白质开辟了令人兴奋的可能性。这些工具在治疗学、材料科学和生物技术的发展中特别有用,在这些领域中,蛋白质的特性可以根据特定需求进行微调。生成经过实验验证可按预期折叠的蛋白质序列的能力对新疗法和疗法的开发具有巨大的意义,特别是对于复杂疾病。例如,这种特殊的疫苗样制剂由计算机设计的蛋白质表位混合物组成——目前使用更传统的纯物理工具。

此外,这些工具有可能显着减少蛋白质设计和工程所需的时间和资源,使其成为一个更容易进入的研究领域。而且它们更容易部署和运行,这再次有助于使它们的使用民主化。事实上,看看您如何轻松地调整常规 ESMFold 来分析现实的蛋白质设计,例如来自在 HuggingFace 上运行的 ProteinMPNN,就在您的网络浏览器中:

一个网络应用程序,通过共识方法设计稳定的蛋白质,用 JavaScript 创建,ESMFold ......

混合现代技术和工具以实现高效工作,创建一个应用程序,实现最简单但当今最……

javascript.plainenglish.io

总而言之,我们可以毫不犹豫地宣称,在使用 AlphaFold 进行蛋白质结构预测的炒作之后,我们现在正处于蛋白质设计的炒作浪潮中,平均每个月左右都会出现新方法,我在这里介绍了其中的一种目前我认为最相关的四个——主要是因为它们都经过了实验测试。

这些用于蛋白质设计的新模型显示出令人印象深刻的结果,并且毫无疑问将在不久的将来成为蛋白质生物技术实验室和公司的重要组成部分。尽管仍然存在局限性,但这些工具的潜在应用是巨大的,预计它们将在未来几年对医学、生物技术和材料科学产生重大影响。

相关文章

有关计算机建模、模拟和人工智能如何影响蛋白质工程的概述,请查看:

计算机建模、模拟和人工智能如何影响蛋白质工程……

不同复杂性、成功率和应用程序的计算方法概述,以及指向关键的……

medium.com

在另一篇文章中,我探讨了为什么蛋白质设计/工程问题如此困难,即使针对单个残基也是如此:

论文摘要:为什么预测稳定性的变化如此困难……

路易斯和阿布里亚塔。分子生物技术 2021 [在此处开放访问]

lucianosphere.medium.com 网站

您可能还会发现我关于在科学机器学习中平衡质量和数量的文章很有趣,我在其中特别提到了与蛋白质设计的 ML 模型相关的要点:

“ML-一切”?平衡科学机器学习方法的数量和质量

需要适当的验证和良好的数据集,客观和平衡,并且预测在现实中有用......

towardsdatascience.com

www.lucianoabriata.com我撰写和拍摄我广泛兴趣领域内的所有事物:自然、科学、技术、编程等。 成为 Medium 会员以访问其所有故事(我获得小平台的附属链接免费收入)并 通过电子邮件订阅以获取我的新故事 **咨询小型工作, **请在此处查看我的服务页面 你可以在这里联系我