科学家利用深度神经网络的想象,进行从头蛋白质设计

270 阅读7分钟

编辑 | 萝卜皮

蛋白质是每个细胞都存在的生物大分子,是生命存在的基础;它们会自发地折叠成复杂的形状,这些结构关系到生命的各项代谢。然而,构成每种蛋白质的氨基酸之间相互作用是非常复杂的,这使得蛋白结构很难预测。

长期以来,科学家们一直在使用 Rosetta 等程序来设计具有潜在新功能的新蛋白质,模拟它们的折叠方式,并预测它们的行为是否如预期的那般。深度神经网络也越来越多地帮助研究人员预测蛋白质结构。

现在,科学家们发现,专门训练来模拟蛋白质形状的深度神经网络可以想象出具有新结构的蛋白质;这些蛋白可能是自然界不存在的,但却可以设计其结构与功能。

华盛顿大学等来自美国的几家学术机构的研究人员合作,对 trRosetta 进行了实验,trRosetta 是一个基于网络的蛋白质结构预测平台,由深度学习和 Rosetta 提供支持。他们对它输入完全随机的蛋白质序列,并在序列中引入了突变,直到 trRosetta 开始进行泛化,从而预测氨基酸串将如何排列成稳定的 3D 结构。

该研究以「De novo protein design by deep network hallucination」为题,于 2021 年 12 月 1 日发布在《Nature》。

最近在使用深度神经网络,在预测氨基酸序列的残基间距离、生成蛋白质结构预测方面取得了相当大的进展。在这里,研究人员研究此类网络捕获的信息是否足够丰富以生成新的折叠蛋白质,其序列与用于训练模型的天然蛋白质的序列无关。

研究人员生成随机氨基酸序列,并将它们输入 trRosetta 结构预测网络以预测起始残基 - 残基距离图,正如预期的那样,这是非常无特征的。

然后,研究人员在氨基酸序列空间中进行蒙特卡罗采样,优化网络预测的残基间距离分布与所有蛋白质平均背景分布之间的对比度(Kullback-Leibler 散度)。从不同的随机起点进行优化产生了涵盖广泛序列和预测结构的新型蛋白质。

然后研究人员获得了编码 129 个网络「幻觉」序列的合成基因,并在大肠杆菌中表达和纯化了蛋白质;27 种蛋白质产生具有与幻觉结构一致的圆二色光谱的单分散物质。确定了三种幻觉蛋白质的三维结构,两种通过 X 射线晶体学,一种通过 NMR,这些与幻觉模型非常匹配。

因此,从其序列中预测天然蛋白质结构的深度网络,经过训练后,可以反转以设计新蛋白质,并且此类网络和方法应该与传统的基于物理学的模型一起为具有新功能的蛋白质的从头设计做出贡献。

人工智能产生幻觉,可能诞生众多拥有目标特性的新蛋白

该团队的结果表明,专门针对天然序列和结构训练的深度神经网络,可以泛化以创建具有与折叠成稳定结构的天然蛋白质无关序列的新蛋白质。研究人员发现的许多幻觉蛋白是单体的、稳定的、具有预期的二级结构,并且 Rosetta 在完全正交的计算中强烈预测会折叠到目标结构。实验溶液 NMR 和晶体结构与研究人员详细表征的三种蛋白质的相应幻觉设计模型之间的密切一致性表明,许多蛋白质可以折叠成预测的幻觉结构。

计算结果概述。

在过去的十年里,从头蛋白质设计努力试图使用基于物理的模型(如 Rosetta)来提炼蛋白质结构和蛋白质序列-结构关系的关键特征,然后使用这些模型来设计体现这些特征的理想化结构。

蛋白质折叠到其最低自由能状态的原理的基础。幻觉结构显示出与这些理想化蛋白质的显着相似之处——在二级结构的规律性、环的短小和其他特征方面。实际上,PDB 中与 0738_mod 结构最相似的结构是从头设计的蛋白质 Top7。

在对大量不规则天然蛋白质结构进行训练期间,深度神经网络显然学会了编码理想的蛋白质结构特性,该特性与专家蛋白质设计者使用更传统的科学方法编码的特性非常相似,尽管以不同的方式表示它们。目前将深度学习应用于广泛的科学问题的研究,将揭示这种对基本特征的提炼是否更普遍地发生。

α-螺旋网络幻觉蛋白的实验表征。

这些「新蛋白」可能是聚集体

通过 SEC 和 NMR 对幻觉设计的实验分析表明,这些蛋白质形成了可溶性聚集体或较小的同源寡聚体,而不是单体。该方法的几个特征可以解释这一点。

首先,trRosetta 接受过天然蛋白质结构的训练,包括许多同源和异源寡聚体,因此模型可能没有学会在高度可溶性单体所需的程度上不喜欢表面疏水性残基。这可能是 β 夹心设计成功率低的一个特殊原因,它具有多个表面疏水残基,可能反映了抗体和其他具有广泛免疫球蛋白折叠域间相互作用的结构。

在 0217 的晶体结构中观察到的同二聚体界面,可能代表了观察到的许多离散的同低聚物中形成的界面。正如通过用极性残基取代表面疏水残基将几个选定的低聚物转化为单体所说明的那样,这个缺点可以相对容易地解决。

其次,trRosetta 模型的分辨率本来就很低,因为侧链原子和堆积相互作用没有明确表示。这可能会限制自然自由能最小值的深度,因此与替代的可能易于聚集的状态相比,设计状态的占用率会受到限制。

一个常见的例子是核心过度堆积,因为幻觉模型和实验结构之间的大多数结构差异发生在蛋白质核心中放置多个大疏水残基的位置;这也可以解释在设计 0738_mod 中观察到的溶液中的结构异质性。用像 Rosetta 这样的显式全原子设计方法补充 trRosetta 设计可以结合两种方法的优势。

科学家们可以创造具有无限特性的新型蛋白质

该团队的工作开辟了大量可供探索的研究途径。这种幻觉方法可以很容易地扩展到使用最近开发的 RoseTTAFold 和 AlphaFold2 网络设计新蛋白质。

在采样方面,蒙特卡洛方法可以通过将梯度追溯到输入的直接基于梯度的最小化来提高效率。损失函数可以概括为包括特定的结构特征——例如,结合基序或催化位点——网络可以在这些特征周围产生新的蛋白质抑制剂或酶催化剂。

网络幻觉蛋白的结构分析。

与传统的蛋白质设计计算不同,在传统的蛋白质设计计算中,通过结构「蓝图」或其他方法预先指定目标支架的属性,如总体拓扑和/或二级结构元素长度和位置,网络从头开始产生似是而非的蛋白质结构的能力使得围绕所需功能位点构建支撑性支架更加简单,因为结构不需要事先绘制。

该网络可以针对给定的问题提出各种不同的蛋白质拓扑解决方案,而对序列长度没有限制。更一般地说,该研究证明了分子设计的生成式深度学习方法的力量,这无疑将在未来几年继续增长。

论文链接:www.nature.com/articles/s4…

相关报道:spectrum.ieee.org/ai-hallucin…

phys.org/news/2021-1…