【AI医药】Protein-ligand binding site prediction

195 阅读10分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第2天,点击查看活动详情

Exploring the computational methods for protein-ligand binding site prediction

近年来,机器学习(ML)席卷了生物和化学信息学领域,为大量与蛋白质序列、结构和相互作用分析相关的问题提供了新的解决方案。而预测蛋白质配体结合位点一直是生物信息学和计算机辅助药物开发领域的重点研究课题,与精度高但耗时的生物学实验相比,计算方法的优点是可以根据序列和结构信息进行ligand binding site(LBS)预测。

近二十年来,基于序列信息、结构模板和三维结构,开发了一系列不同的预测方法。这些方法采用各种计算方法,包括几何或能量特征搜索、序列或结构相似性比较、以及机器学习、深度学习等算法。为此对LBS预测方法的分类进行一个介绍,同时也会给出对应的论文。

一、基于三维结构的LBS预测方法

大多数小的配体结合发生在蛋白质表面的中空或空腔中,因为只有足够大的界面才能获得高亲和力。在对PDB蛋白配体复合体的许多详细研究中,已经在空间结构中观察到这一特征。因此,试图通过寻找蛋白质结构中的特殊几何形状或能量特征来定位LBS一直是该领域最流行的方法之一。表1列出了一些发表的基于三维结构的LBS预测方法。

Table1 3D structure-based LBS prediction methods image.png

该方法通常有两种不同的实现。一种是对蛋白质结构进行空间几何测量,以发现蛋白质表面的空洞或空腔。第二种方法是在蛋白质表面放置一些探针,然后通过估计探针与空洞之间的能量势来寻找空洞。

基于空间几何测量的LBS预测方法的基本思想是从蛋白质结构信息中,通过计算和模拟一定的几何测度,在蛋白质结构上定位较大的甚至最大的空洞或空洞。在过去的几十年里,研究人员想出了许多不同而有创意的方法来实现这一目标。

基于探针能量的LBS预测方法的原理是先将特定的探针分子放置在待测蛋白质上,测量探针分子与周围残基之间的相互作用能量信号,然后从能量信号强度的分布中找到蛋白质结构中的口袋。基于探针能量的预测方法通常采用不同的探针参数或同时使用多个探针,以达到更好的性能。

缺陷:这些方法强烈依赖于给定蛋白质的三维结构状态,这意味着如果在apo状态下不存在结合口袋,而是在holo状态下由蛋白质-配体相互作用诱导,则可能无法发现LBSs。在许多缺乏全息状态下蛋白质结构的情况下,这些方法可能是无效的。

二、基于模板相似度的预测方法

蛋白质3D结构为LBS提供了几何和能量线索,使我们能够使用蛋白质的单一结构进行预测。如果考虑到蛋白质不是一个独立的分子,而是由其他蛋白质进化而来,那么结构或功能信息可以在同源或结构相似的蛋白质之间传递。因此,可以使用已知蛋白质作为模板来预测一个LBS,从而获得查询蛋白质中相似的特征。基于模板相似度的LBS预测方法主要包括基于结构模板的方法基于序列模板的方法。表2列出了近20年来发表的一些基于模板相似度的LBS预测方法。

Table2 Template similarity-based LBS prediction methods image.png

基于结构模板的LBS预测方法的基本思想是利用结构对齐算法在已标记有LBS的数据库中搜索最相似的蛋白质,然后将已知的LBS从最相似的蛋白质转移到查询蛋白质上。该方法利用了不断积累的蛋白质结构数据库。如果蛋白质具有显著的结构相似性,那么它就非常可靠。

基于序列模板的LBS预测方法的基本思想类似于基于结构模板的LBS预测方法,即使用对齐工具将待测蛋白质的序列与已知蛋白质的序列进行对齐,然后根据相似度选择模板。最后,根据已知的对齐区域上的配体结合残基,推测待测蛋白的配体结合残基。

三、基于传统机器学习的预测方法

在蛋白质LBS预测的研究中,基于三维结构的预测方法和基于模板相似度的预测方法与LBS预测具有互补优势。如何整合这些信息,进一步提高预测精度是该领域亟待解决的问题之一。许多研究者不仅尝试使用机器学习算法进行LBS预测,还尝试使用机器学习算法进行绑定亲和性研究,并取得了重大突破。表3列出了一些传统的基于机器学习的LBS预测方法和一些近年来发表的相关绑定亲和性研究方法。

Table3 Traditional machine learning-based LBS prediction methods

image.png

预测蛋白质配体结合位点从数学角度来说是一个典型的二分问题,存在样本不平衡的状态。在众多能够实现二分法的经典机器学习算法中,朴素贝叶斯算法需要计算先验概率,不适用于样本之间有相关性的数据;逻辑回归虽然实现简单,但由于容易出现特征的欠拟合,其精度较差;此外,虽然KNN算法速度快,训练成本低,在样本不平衡的情况下,分类效果较差。因此,支持向量机(support vector machine, SVM)以其分类精度高、泛化能力强、对高维小样本数据具有优秀的分类能力,在众多传统机器学习算法中脱颖而出。它已经成为LBS预测领域中最流行的机器学习方法。

例如,2013年发表了基于svm的预测方法COACH[2],它将基于结构模板和基于序列信息的预测方法SSITE和TM_SITE与新COFACTOR[3]、FINDSITE[4]和ConCavity[5]三种方法的预测结果作为特征向量结合到支持向量机中进行训练并形成分类模型,最后使用该分类模型输出预测结果。基准测试结果表明,COACH优于其他经典预测算法(MCC=0.54和Pre=0.59),使其成为过去几年最受欢迎的蛋白质LBS预测方法。

四、基于深度学习的预测方法

2006年,深度学习引领了第三波人工智能,在文本分类、语音识别、语义建模、图像识别、图像分割和计算机视觉等方面都远远超过了传统机器学习。在某些领域,它甚至已经超越了人脑,成为机器学习领域最受欢迎的研究分支。因此,越来越多的研究人员看到了使用深度学习技术解决生物信息学和医学研究领域的复杂问题的可能性,如小复方药物发现、活性预测、化学结构设计、生物成像和基于医学成像的诊断。

近两年来,一些利用深度学习技术的蛋白质定位预测方法被报道出来。基于深度学习的预测方法已成为LBS预测研究的新热点。表4列出了一些基于深度学习的LBS预测方法和相关研究。

Table4 Deep learning-based LBS prediction methods

image.png

2017年,J Jiménez等人开发了用于预测蛋白质配体结合位点的DEEPSite算法[6]。该算法的基本思想是将蛋白质结构视为三维图像,并将其离散成具有一定尺寸体素的网格。一系列的原子属性,如疏水性和氢键受体或供体,被用作特征来计算每个属性在每个体素上的占用率。最后,对一定大小的子网格进行采样,并将子网格的特征作为卷积神经网络的输入,输出该站点被标记为绑定站点的概率。DeepSite算法也是目前预测蛋白质结合位点的重要算法,后续有机会会对该文章所提出的方法进行具体解析。

2019年,Yifeng Cui等人开发了DeepCSeqSite算法[7],该算法利用位置特定评分矩阵、相对溶剂可及性、二级结构、二角角、守恒分数、残留类型和位置嵌入的七个特征来构建特征空间。将氨基酸序列中的每个残基嵌入到特征空间中,将氨基酸序列转换为特征图,然后将特征图作为卷积神经网络的输入,网络的输出是蛋白质配体结合残基的预测结果。DeepCSeqSite不使用任何模板,包括三维结构,而是直接预测蛋白质配体的结合位点。它在测试数据集上的性能明显优于COACH。

结论

从上述LBS预测方法的发展可以看出,LBS预测的研究重点已经从分析简单的三维结构特征和序列/结构相似性转变为综合多种特征。机器学习算法在这一过程中发挥了关键作用,特别是深度学习算法的应用已经开始显示出LBS预测的巨大价值。此外,结合亲和性和晶体结构的信息可以作为机器学习或深度学习算法的输入,帮助完成LBS预测,这使得LBS预测与亲和性预测和分子对接等领域更加紧密地结合在一起。

随着越来越优秀的基于机器学习和深度学习的LBS预测方法的不断发表,其他利用这些方法进行的生物学研究,如蛋白质结构和功能预测、蛋白质-蛋白质相互作用位点预测、药物设计等也已经取得也正在进行新的突破。 尽管近两年来基于深度学习的LBS预测方法得到了应用和应用,但这类解决方案仍存在一些问题和不足。一个关键问题是,与传统机器学习算法相比,深度学习算法往往需要极高的训练成本(昂贵的计算资源、庞大的训练集等)。但相信随着深度学习的昂扬向上之势,未来,先进的深度学习方法与蛋白质构象采样技术一起,也很可能成为LBS预测领域新的发展方向。

参考文献

  1. 论文地址:www.sciencedirect.com/science/art…
  2. Yang J, Roy A, Zhang Y. Protein–ligand binding site recognition using complementary binding-specific substructure comparison and sequence profile alignment. Bioinformatics 2013;29:2588–95.
  3. Roy A, Yang J, Zhang Y. COFACTOR: an accurate comparative algorithm for structure-based protein function annotation. Nucleic Acids Res 2012;40:W471–7.
  4. Brylinski M, Skolnick J. A threading-based method (FINDSITE) for ligand-binding site prediction and functional annotation. Proc Natl Acad Sci 2008;105:129–34.
  5. Capra JA, Laskowski RA, Thornton JM, Singh M, Funkhouser TA. Predicting protein ligand binding sites by combining evolutionary sequence conservation and 3D structure. PLoS Comput Biol 2009;5:e1000585.
  6. Jiménez J, Doerr S, Martínez-Rosell G, Rose AS, De Fabritiis G. DeepSite: protein-binding site predictor using 3D-convolutional neural networks.Bioinformatics 2017;33:3036–42.
  7. Cui Y, Dong Q, Hong D, Wang X. Predicting protein-ligand binding residues with deep convolutional neural networks. BMC Bioinf 2019;20:93.