Empathi:基于嵌入技术的噬菌体蛋白分层注释工具
摘要
噬菌体是感染细菌的病毒,估计数量超过其细胞宿主的10倍,是所有微生物生态系统中的关键参与者。在宿主进化压力下,它们快速进化并编码大量多样化的蛋白质序列。因此,大多数噬菌体蛋白功能仍然未知。
当前从序列全面识别噬菌体蛋白功能的工具要么缺乏灵敏度(例如那些依赖同源性的方法),要么缺乏特异性(为蛋白质分配单一粗略功能)。本文介绍Empathi,一种基于蛋白质嵌入的分类器,以分层方式分配功能。
专门为噬菌体蛋白功能设计了新类别,并按照每个类别中分子水平功能一致的方式组织,使其适合基于蛋白质嵌入训练机器学习分类器。Empathi在培养噬菌体基因组数据集上优于基于同源性的方法,将注释同源群的数量增加了三倍。在EnVhogDB数据库(最新最全面的宏基因组来源噬菌体蛋白数据库)上,Empathi将蛋白质家族的注释比例从16%提高到33%。
引言
噬菌体是地球上最丰富的生物实体之一,从海洋、土壤到我们体内无处不在。然而,直到最近几年,噬菌体在微生物组研究中一直被忽视,这些研究主要关注细菌成分。
下一代全宏基因组鸟枪法测序方法的发展显著加速了噬菌体研究,允许直接在其自然栖息地对它们进行测序,从而绕过噬菌体培养。然而,从大规模宏基因组测序数据组装新的噬菌体基因组带来了表征这些高度多样化噬菌体及其组成蛋白质以及确定其宿主的挑战。
方法
收集和注释噬菌体蛋白
使用INPHARED从GenBank收集了18,477个噬菌体基因组及其预测的蛋白质序列。这些蛋白质使用HH-suite与PHROG数据库的pHMM进行比较进行功能注释。使用ProtTrans计算每个数据集中蛋白质的嵌入(固定大小的1024维向量)。最后,使用MMseqs2以30%序列同一性阈值、80%覆盖率和e值小于0.001对蛋白质进行聚类,为机器学习创建训练和测试集。
训练和测试模型
在所有模型中使用具有RBF核的支持向量机作为基础分类器。Empathi由一组二元分类器(每个类别一个)组成。因此,有必要为每个功能类别定义新的训练和测试集。这确保每个模型都在适应每个类别的正负数据上训练,并且尽可能不包含重叠和噪声。
结果
功能组的新分层方案
PHROG类别不适合机器学习分类。许多PHROG类别包含各种分子水平功能。例如,头部和包装类别由结构蛋白、具有裂解结构域的内部蛋白和可以结合DNA的终止酶蛋白组成。
从生物学角度和机器学习目的出发,将相似的PHROG注释术语分组到尊重分子功能的新功能类别中。这些新定义的功能类别包括基板蛋白、核酸酶和吸附相关蛋白等组,在可能的情况下分类为更一般的类别(PVP、DNA相关、裂解相关)。
构建和测试模型
从18.5k个噬菌体基因组中获得了904k个去重复蛋白,几乎一半(417k蛋白,46%)基于它们与PHROG pHMM的序列相似性被置于44个新定义的功能类别中的至少一个中。
为每个44个功能类别训练了一个二元模型,使用80%的聚类进行训练,并在剩余的20%聚类上进行测试。除一个外,所有二元模型的F1分数均大于或等于88%,四分之三的模型达到至少95%的分数。
扩展注释蛋白质的比例
INPHARED数据集中多达483k蛋白(54%),对应150k聚类(76%),与任何具有已知功能的PHROG pHMM不相似。在这些即使敏感相似性搜索方法也未能功能注释的蛋白质中,61%(285k蛋白)被Empathi分配了功能。
总共,几乎五分之四的噬菌体蛋白现在具有预测功能(718k蛋白,数据集的79%),将注释聚类的总比例从25%提高到73%。
讨论
在这项工作中,我们开发了Empathi,一种利用蛋白质语言模型生成的高度信息表示来注释超越标准和远程同源性的工具。它构成了Flamholz等人最近提出的用于此任务的模型的重大改进。
通过使用二元模型和重新组织注释以使其与蛋白质的分子功能更加一致,我们能够提高训练用于预测蛋白质功能的模型的准确性和灵敏度。除了使用测试数据集进行实验验证外,完整基因组中预测功能的高度共定位进一步证明了Empathi的一致性。
最后,Empathi应用于EnVhogDB数据库,将注释蛋白质聚类的比例从16%提高到33%,并应用于EFAM,将注释聚类的比例从34%提高到58%。