编辑 | 萝卜皮
解析蛋白质序列和功能之间的关系,对于设计在生物能源、医学和农业等领域应用的新型蛋白质是必要的。从序列到功能的映射非常复杂,因为它涉及在多个长度和时间尺度上耦合的数千个分子相互作用。研究表明神经网络可以从大型蛋白质数据集中学习序列-函数映射。
神经网络对完成这项任务很有潜力,它们可以从数据中学习复杂的关系,可以对序列-函数关系的性质做很少的假设,同时可以学习适用于整个蛋白质序列长度的一般规则。
从蛋白质序列到功能的映射非常复杂,来自威斯康星大学麦迪逊分校的研究人员提出了一个有监督的深度学习框架,从深度突变扫描数据中学习序列-函数映射,并对新的、未表征的序列变体进行预测。
他们测试了多个神经网络架构,包括一个包含蛋白质结构的图卷积网络,从而探索网络的内部表示影响其学习序列-函数映射的能力。该监督学习方法表现出优于基于物理和无监督预测方法的性能。
研究人员发现捕捉非线性相互作用和跨序列位置共享参数的网络,对于学习序列和函数之间的关系很重要。对训练模型的进一步分析,揭示了网络学习有关蛋白质结构和机制的生物学意义信息的能力。
最后,研究人员展示了模型导航序列空间和设计训练集之外的新蛋白质的能力。他们应用蛋白质 GB1 域模型来设计一个序列,该序列与免疫球蛋白 G(IgG)的结合亲和力比野生型 GB1 高很多。
该研究以「Neural networks to learn protein sequence–function relationships from deep mutational scanning data」为题,于 2021 年 11 月 30 日发布在《PNAS》。
了解从蛋白质序列到功能的映射,对于描述自然进化过程、诊断遗传疾病和设计具有独特性质的新蛋白质非常重要。这种映射是由数千个复杂的分子相互作用、动态构象集合以及生物物理特性之间的非线性关系形成的。这些高度复杂的特征,使得建模和预测氨基酸序列的变化与功能的对应关系,变得困难。
在过去十年中,随着 DNA 测序、三维结构测定和高通量筛选的进步,蛋白质数据量呈爆炸式增长。随着这些数据的增加,统计学和机器学习方法已经成为理解从蛋白质「序列-功能」复杂映射的有力方法。
EVmutation 和 DeepSequence 等无监督学习方法在进化相关蛋白质序列的大比对上进行训练。这些方法可以模拟蛋白质家族的天然功能,但它们无法预测不受长期进化选择影响的特定蛋白质特性。
相比之下,监督方法直接从序列-功能示例中学习到特定蛋白质特性的映射。许多先前的监督学习方法都有局限性,例如无法捕获非线性交互、对大型数据集的可扩展性差、仅对单突变变体进行预测或缺乏可用代码。
其他学习方法利用多序列比对和带注释的遗传变异的数据库对突变对机体健康或疾病的影响进行定性预测,而不是对分子表型进行定量预测。目前需要通用的、易于使用的监督学习方法,该方法可以利用大型序列功能数据集以蛋白质设计所需的高精度预测特定分子表型。
图示:神经网络的评估和与无监督方法的比较。(来源:论文)
该团队提出的深度学习框架,从深度突变扫描实验产生的大规模数据中学习蛋白质序列-功能关系。研究人员训练有监督的神经网络来学习从序列到函数的映射。然后,这些经过训练的网络可以泛化以预测以前未见过的序列的功能。
他们研究了具有不同表示能力的网络架构,包括线性回归、非线性全连接网络和共享参数的卷积网络。该监督建模方法在五个不同的深度突变扫描数据集上显示出很强的预测准确性,并且与最先进的基于物理和无监督的预测方法相比具有优势。在测试的不同架构中,研究人员发现捕获非线性交互并跨序列位置共享信息的网络显示出最大的预测性能。
他们探索了该神经网络模型对蛋白质的了解,以及它们如何理解序列-功能映射。卷积神经网络学习蛋白质序列表示,该表示根据序列的结构和功能差异来组织序列。此外,输入序列特征的重要性与蛋白质的三维结构和已知的关键残基有很强的对应关系。
最后,研究人员使用一组监督学习模型来设计五个与野生型距离不同的蛋白质 GB1 结构域序列。他们对这些序列进行了实验表征,发现顶部设计与 IgG 结合的亲和力至少比野生型 GB1 高一个数量级。
图示:监督学习框架概述。(来源:论文)
讨论
该监督模型在使用大规模数据集训练时效果最佳,但在仅使用数百个序列函数示例进行训练时,它们仍然可以胜过基于物理和无监督的预测方法。
无监督方法对于可用序列功能数据很少或没有的蛋白质仍然具有吸引力。在监督模型中,线性回归表现出最低的性能,因为它无法表示多个突变之间的相互作用。尽管有这个限制,线性回归仍然表现得相当好,因为突变通常以加法方式组合。当使用较少的训练样本进行训练和执行突变外推时,卷积网络的表现优于线性回归和全连接网络。卷积网络固有的参数共享可以通过允许跨不同序列位置的突变效应的泛化来提高性能。
图示:文库大小和测序读取数之间的权衡。(来源:论文)
然而,在测试的五个数据集中,当整个序列位置从训练数据中排除时,即使是卷积网络也无法准确概括。令人惊讶的是,包含蛋白质结构的图卷积并没有提高基于序列的卷积的性能。可比较的性能可能是网络补偿全连接层的能力、深度突变扫描数据中缺乏序列多样性或使用的特定类型的图神经网络架构的结果。研究人员无法确定这些因素中哪个影响最大。
在设计未来的深度突变扫描实验时,可以借鉴该团队对数据质量如何影响学习序列-功能映射的能力的分析。研究人员发现模型的预测性能不仅取决于序列-函数训练示例的数量,还取决于估计函数分数的质量。因此,在深度突变扫描实验中,最好限制所分析的独特变体的总数,以确保每个变体都有足够的测序读数来计算准确的功能评分。然后可以用卷积网络对任何缺失的突变进行估算,以克服较小的数据集大小。
图示:神经网络解释。(来源:论文)
最近的研究已经检查了能够扩展到深度突变扫描数据集的监督学习方法。一项研究对监督学习方法和蛋白质序列编码的组合进行了基准测试。他们发现具有基于氨基酸特性的特征的序列卷积神经网络往往比替代方案表现更好。
一些算法专门用于建模上位性。Epistatic Net 引入了神经网络正则化策略来限制上位交互的数量。其他方法侧重于由于从潜在表型到实验特征函数的非线性转换而引起的全局上位性。UniRep 的蛋白质工程表明,通用全局蛋白质表示可以支持训练特定功能的监督模型,序列-功能示例相对较少。ECNet 开创了一种结合全局蛋白质表示、关于残基协同进化的局部信息和蛋白质序列特征的方法。在数十个深度突变扫描数据集上,ECNet 几乎总是优于无监督学习模型和仅基于全局蛋白质表示的模型。
未来的工作可以探索如何最好地结合全局蛋白质表示、局部残基共同进化特征和蛋白质结构的图编码,以学习特定蛋白质功能的预测模型,包括几乎没有可用实验数据的蛋白质。尽管在该团队的研究中它们与序列卷积网络的性能相似,但由于其他蛋白质建模任务的成功和图神经网络架构的快速发展,集成了三维结构信息的图卷积网络仍然很有吸引力。
另一个具有挑战性的未来方向将是评估训练有素的模型如何外推到具有更高阶突变的序列。作为概念证明,研究人员设计了具有数十个野生型突变的远距离 GB1 序列。突变体设计 10(Design10)具有比野生型 GB1 更强的 IgG 结合亲和力,但具有更多突变的四个序列不表达为可溶性蛋白。
图示:基于神经网络的蛋白质设计。(来源:论文)
考虑到他们测试的设计序列如此之少,以及对模型引导设计的有限探索有很多改进机会,Design10 的巨大成功令人鼓舞。可以通过更复杂的集成和不确定性估计来改进模型预测。他们的爬山序列优化策略可以被专门的方法所取代,这些方法允许监督模型有效地探索序列空间的新部分。
机器学习正在彻底改变研究人员预测蛋白质序列、结构和功能之间复杂关系的能力。蛋白质功能的监督模型目前受到实验数据的可用性和质量的限制,但随着研究人员继续对蛋白质序列空间进行实验表征,它将变得越来越准确和普遍。与蛋白质工程相关的其他重要机器学习进展,包括对非天然蛋白质序列进行采样的生成建模、从不同的自然序列中学习蛋白质表示的语言模型,以及将机器学习预测纳入定向进化实验的策略。这些方法使下一代数据驱动的蛋白质工程成为可能。
论文链接:www.pnas.org/content/118…¥¥