编辑 | 萝卜皮
蛋白质-蛋白质相互作用在生物学中起着至关重要的作用,但许多真核蛋白质复合物的结构是未知的,并且可能有许多相互作用尚未确定。
来自华盛顿大学、德克萨斯大学以及剑桥大学等机构的研究人员组成的研究团队,将全蛋白质组氨基酸协同进化分析和基于深度学习的结构建模相结合,系统地识别和构建酿酒酵母蛋白质组中核心真核蛋白质复合物的准确模型。
该团队使用 RoseTTAFold 和 AlphaFold 的组合来筛选 830 万对酵母蛋白的配对多序列比对,识别 1,505 种可能相互作用,并为 106 个未识别的组件和 806 个尚未表征结构的组件构建结构模型。这些复合物具有多达 5 个亚基,在真核细胞的几乎所有关键过程中都发挥作用,并提供对生物学功能的广泛见解。
该研究以「Computed structures of core eukaryotic protein complexes」为题,于 2021 年 11 月 11日发布在《Science》。
背景与挑战
酵母二杂交(Y2H)、亲和纯化质谱(APMS)和其他高通量实验方法已在酵母和其他生物体中鉴定出许多相互作用的蛋白质对,但使用不同方法生成的组之间存在差异,并且假阳性率和假阴性率较高。
由于预计蛋白质-蛋白质界面上的残基会共同进化,因此可以通过鉴定和比对许多不同物种中两种蛋白质的直向同源序列,将它们连接起来创建成对的多序列比对 (pMSA),来评估任何两种蛋白质相互作用的可能性;然后确定第一个蛋白质的直向同源物序列的变化,与第二个蛋白质的直向同源物序列变化的程度。这种氨基酸协同进化已被用于指导复合体的建模,在这种情况下,结合蛋白的结构是已知的,并系统地识别原核生物中相互作用的蛋白质对,其准确度高于实验筛选。最近在蛋白质结构预测方面基于深度学习的进展有可能增加此类方法的能力,因为它们现在不仅可以对蛋白质单体结构进行准确建模,还可以对蛋白质复合物进行准确建模。
研究人员将蛋白质组范围内的协同进化引导的蛋白质相互作用鉴定,与基于深度学习的蛋白质结构建模相结合,以系统地鉴定和确定真核蛋白质组装体的结构。在将有效识别原核生物共同进化对的统计方法,直接应用于真核生物时,研究人员面临着几个挑战。
首先,真核生物可用的基因组序列比原核生物少得多,并且直向同源序列的平均数量(不包括具有> 95% 序列同一性的几乎相同的拷贝)对于细菌蛋白质大约为 10,000,而对于真核蛋白质则为 1,000。因此,真核蛋白质对的多序列比对包含较少的不同序列,这使得统计方法更难区分真正的共同进化信号和噪声。
其次,真核生物通常具有更多的基因,这使得综合成对分析的计算量更大,并增加了背景噪音。
第三,真核生物中的 mRNA 剪接进一步增加了蛋白质种类的数量,导致基因预测错误并使序列比对复杂化。
第四,真核生物在多个谱系中经历了几轮基因组复制,很难区分直系同源物和副同源物,这对于检测共同进化信号很重要,因为感兴趣的蛋白质相互作用可能在其他物种的直系同源物中保守,但在副同源物中则不太保守。
应对方法
为了应对前三个挑战,研究人员选择使用预测酵母 S. cerevisiae 的蛋白质复合物作为起点,因为真菌基因组数量众多,基因组相对较小(总共 6,000 个基因),并且 mRNA 剪接相对较少 ;此外,由于酵母的相互作用组已被广泛研究,因此有一套已知相互作用的「黄金标准」来评估预测相互作用和结构的准确性。
为了区分直向同源物和旁系同源物,研究人员从 OrthoDB 开始。这是一个跨 1,271 个真核生物基因组的直向同源物的分层目录,并从 NCBI 和 JGI 组装了 4,325 个真核生物蛋白质组序列,来补充每个直向同源物组。
其中,2,026 个是跨越 14 个门(47 个类别)的真菌蛋白质组。将额外的 4,325 个蛋白质组中每个蛋白质的序列与 OrthoDB 数据库中最密切相关物种的序列进行了比较,并使用相互最佳命中标准来识别直向同源物;然后将这些添加到相应的直系同源组中。
一个复杂的问题是每个物种经常包含多个属于同一直系同源组的蛋白质,导致在确定哪些蛋白质应包含在 pMSA 中时存在歧义。这些多个拷贝可能代表同一基因的可变剪接形式、同一基因的部分由于基因预测错误而被分成多个片段,或最近特定谱系的基因扩增。
研究人员通过仅保留每个基因的最长同种型、合并同一基因的片段并选择与其他物种中的单拷贝直向同源物具有最高序列同一性的副本来处理这些可能性。对于约 6,000 种酵母蛋白质中的 4,090 种,能够将单拷贝酵母蛋白质分配给其他物种的直向同源物,并为这些蛋白质的所有 4,090 * 4,089 / 2 = 8,362,005 对组合生成了 pMSA。这项研究专注于 4,286,433 对包含超过 200 个序列的比对以提高预测准确性和少于 1,300 个氨基酸以加速计算。
图 1:蛋白质相互作用和结构预测准确性的评估。
在第一组计算中,研究人员发现即使具有酿酒酵母的优势和改进的直系同源鉴定,研究人员之前在共同进化引导的蛋白质-蛋白质相互作用 (PPI) 筛选中使用的统计方法(直接偶联分析,DCA)在原核生物中(更准确的 GREMLIN 方法对此太慢)无法有效区分已知相互作用的 768 个酵母蛋白质对的「黄金标准」组与主要非相互作用对的更大组(768,000 对)。进展需要一种更准确、更灵敏但仍可快速计算的方法来评估基于 pMSA 的蛋白质相互作用。
使用 RoseTTAFold 与 AlphaFold 的讨论
研究人员探索了基于深度学习的结构预测方法 RoseTTAFold(RF)和 AlphaFold(AF)在这个问题上的应用。尽管 RF 最初是针对单体蛋白质序列和结构进行训练的,但它可以准确地预测具有足够数量序列的 pMSA 的蛋白质复合物的结构。
研究人员发现轻量级(1070 万个参数)RF 双轨模型在计算时间和精度之间提供了很好的权衡:该模型需要 11 秒(比 AF 快约 100 倍)来处理一个 NVIDIA TITAN RTX 图形处理单元上的 1,000 个氨基酸的 pMSA,它可以有效地在更大的随机配对蛋白质组中区分黄金标准 PPI。
分析单个 pMSA 所需的时间非常短,因此可以处理所有 430 万个 pMSA。该方法在区分金标准相互作用与随机对方面明显优于 DCA,使用两种蛋白质中所有残基对的最高预测接触概率,作为使两种蛋白质相互作用倾向的度量 。
通过纠正对第一个蛋白质的 C 端残基和第二个蛋白质的 N 端残基之间的预测接触概率的偏差,进一步提高了性能。RF 比 DCA 更好的性能可能源于 RF 深度神经网络中嵌入的关于蛋白质序列-结构关系的广泛信息;相比之下,DCA 仅对蛋白质序列进行操作,没有潜在的蛋白质结构模型。
接下来研究人员探讨了, AF 残基-残基接触预测是否可以进一步区分相互作用和非相互作用蛋白质对。像 RF 一样,AF 是在单体蛋白质结构上训练的,但鉴于 2-track RF 在蛋白质复合物上的良好结果,以及 AF 对单体的更高准确性,研究人员认为它在复合体上同样具有比 RF 更高的准确度;为了能够使用 AF 对蛋白质复合物进行建模,研究人员修改了 AF 脚本中的位置编码。
然而由于 AF 太慢,无法应用于整个 430 万个 pMSA(这将需要 0.1-100 万个 GPU 小时);相反,研究人员将 AF 应用于具有最高 RF 支持的 5,495 个蛋白质对(由图 1B 中的黑色垂直线表示)。使用所有残基对的最高 AF 接触概率作为相互作用强度的衡量标准,研究人员发现 RF 和 AF 的组合提供了出色的性能。几乎所有金标准对的排名都高于阴性对照,允许以 0.67 的 AF 接触概率截止值(图 1C 中的黑色水平线)选择一组 715 个候选 PPI,预期精度为 95%;研究人员将此 RF 加 AF 程序称为 de novo PPI 屏幕,以及由此产生的一组预测交互,de novo PPI 集,如图 1 所示。
由于计算时间和准确性之间的权衡,以及设置严格阈值以避免大量假阳性的必要性,因为总对数非常多,研究人员担心一些相互作用的蛋白质可能无法充分共同进化显示。鉴于 AF 在区分 RF 过滤对之间的金标准相互作用方面的出色性能,研究人员还将 AF 应用于 pMSA 以获取文献中报道的 PPI,包括在高通量实验屏幕中确定的那些。与从头 PPI 筛选程序类似,研究人员认为 AF 接触概率大于 0.67 的蛋白质对是有信心的相互作用蛋白对。研究人员发现 47% 的黄金标准 PPI 被可靠地预测,文献中候选 PPI 的比率较低(31% 和 24%),或者根据 BIOGRID(图 1D)得到低通量实验的支持。
总结一下
总的来说,研究人员从「de novo RF → AF」屏幕中确定了 715 个可能的交互对,从「汇集实验集→AF」屏幕中确定了 1,251 个,其中 461 个重叠,总共产生 1,505 个 PPI。其中,699 个已经被结构表征,700 个有一些来自文献和数据库的支持实验数据,106 个对于研究人员是未知的。为了评估预测的蛋白质复合物 3D 结构的准确性,研究人员使用 PDB 中具有实验结构的 699 对作为基准。对于这些对中的 92%,实验结构中存在至少 50% 的置信度(预测对齐误差 < 8 Å)AF 预测接触。然而,这些模型确实遗漏了在实验结构中观察到的许多接触,这可能是由于残基-残基共同进化较低。
有了这些基准测试结果,研究人员对新的复杂相互作用预测和预测复合物的 3D 模型的准确性充满信心,研究人员分析了无法获得高分辨率结构信息的 806 复合物的结构模型。研究人员根据它们的生物学功能将这些模型分组,并在图中提供了每个功能类别中复合物的示例。
图 2:参与转录、翻译和 DNA 修复的蛋白质复合物。
第一组复合体参与遗传信息的维护和处理:DNA 修复、有丝分裂和减数分裂检查点、转录和翻译(图 2)。第二组复合物在蛋白质易位、通过分泌途径、细胞骨架和细胞器的运输中发挥作用(图 3)。第三组复合物参与代谢(图 4)。图 4 显示了蛋白质复合物的例子,其中预测未知功能的蛋白质与充分表征的蛋白质相互作用:这些相互作用提供了关于未表征蛋白质的功能的提示,并有助于识别先前表征的组件的新组件。
图 3:参与分子转运、膜易位和线粒体的蛋白质复合物。
图 4:参与代谢、GPI 锚定生物合成或包含未知功能的蛋白质的蛋白质复合物。
在预测三个或更多蛋白质相互作用的情况下,研究人员通过使用整个复合体的序列比对作为输入来生成完整组件的模型。这些较大组件的示例如图 5 所示;在大多数情况下,成对相互作用与独立构建的二元复合物非常相似,但同时对完整复合物建模的优势在于允许伴随完整组装的构象变化。
图 5:高阶蛋白质复合物。
该团队所研究的蛋白对数量巨大,因此没办法一一展示所有蛋白复合物结构,该研究的研究结果已在论文的补充数据中公布,以方便其他研究人员使用。
补充数据:modelarchive.org/doi/10.5452…
论文链接:www.science.org/doi/10.1126…