【AI医药论文导读】分子对接

255 阅读10分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第1天,点击查看活动详情

SHREC 2022

由于课题需要,最近在查阅蛋白质-配体结合位点相关的论文和方法,了解到有一个SHREC - 3D Shape Retrieval Challenge竞赛,它的总体目标是评估3D形状检索算法的有效性,它与欧洲图形学3D对象检索研讨会一起组织,结果将在研讨会上进行审查和展示。目前SHREC 2023也已经开赛,可以选择以前的相关赛道也可以开发新的赛道,感兴趣的可以去官网www.shrec.net/自行查看。

SHREC2022是第十六届挑战赛,包含了蛋白质配体结合位点识别赛道,蛋白质-配体结合区域的预测是计算生物物理学和结构生物学中一个活跃的研究领域,对分子对接和药物设计具有重要意义。比赛的目标是评估基于蛋白质几何结构识别配体结合位点的计算方法的有效性,根据描述假定口袋接触配体和精确定位正确结合区域的能力的两个评价分数来分析分割算法的性能。来自4个不同国家的8个团体注册了这个赛道,其中四个团队提交他们的结果。下面,我将对这四个团队提出的方法做一个简单的介绍。

方法一:Point Transformer

该方法从给定的蛋白质网格开始(图一的左上角),使用拉普拉斯平滑调整顶点位置来平滑网格表面,达到“放松”网格的效果,使三角形形状更好,顶点分布更均匀;然后计算逐顶点曲率,将一个5维顶点特征fv=[x,y,z,g,m]([x,y,z]表示归一化欧式坐标,[g,m]分别表示高斯曲率和平均曲率)输入到基于transfomer的神经网络中。绑定区域预测被视为一个二元形状分割,其中1表示绑定区域的类别,0表示非绑定区域的类别,采用加权交叉熵损失对网络进行训练。最终以预测的二值分割结果作为配位性评分,根据候选绑定区域顶点的配位性评分对其聚类,并根据每个区域内的顶点评分形成绑定区域并进行排序(配位性是指给定区域结合配体的能力,并不一定会导致生物学结果)。 image.png

图一 Point Transformer图示

Point Transformer[2]是一种基于Transformer的神经网络模型,如图一的底部所示。该网络采用U-Net架构,由编码器和解码器组成。编码器由五个块组成,每个块包含一个降低形状分辨率的向下转换层和一个点转换层,用于聚合每个顶点的局部几何特征,除了第一个块包含一个多层感知器(MLP)层,用于将每个顶点特征从5维扩展到更高维。类似地,解码器由四个块组成,每个块包含一个用于恢复形状分辨率的过渡层和一个用于与编码器中相同目的的点转换层,最后利用MLP层对最终结果进行回归。

提出的模型在官方提供的数据集上进行训练,该数据集包括935个用于训练的蛋白质形状和165个用于测试的蛋白质形状。

方法二:GNN-Pocket

GNN-Pocket一种基于图神经网络的蛋白质表面口袋检测方法。采用VisGrid[3]和ghecom[4]提取每个原子三种类型的特征:第一个特征是VisGrid的二进制输出,它指示一个原子的可见性是否低于阈值;第二个特征是ghecom预测为口袋的最近网格的数量;第三个特征是VisGrid预测为口袋的8˚A范围内的网格点数量。然后将这三个特征拼接成一个三维向量作为神经网络的输入嵌入,并用这些原子构造一个图。最后,开发一个4层GNN[5],以返回输入蛋白表面的每个原子属于一个口袋的概率。

image.png

图二 GNN-Pocket图示

利用提取的特征构造以输入蛋白质的原子为节点的图,他们使用了两种不同的边连接标准构造图: 1.如果两个原子之间的距离小于它们的半径之和,就会在它们之间构建一条边;2.如果两个原子的距离小于半径加水分子大小(2.8˚A)的总和,则认为这两个原子之间有一条边。

为了训练GNN模型,提供的925个蛋白质数据集被分成两组:740个用于训练,185个用于验证。在训练中,采用了考虑预测与基础真值交集和结合的Dice loss方法。

方法三:DeepSurf

该方法采用的策略遵循了机器学习领域的最新进展,以及深度学习方法在各种任务中的广泛应用。更具体地说,其采用了DeepSurf[6],这是一种最近提出的深度学习方法,用于预测蛋白质上潜在的结合位点。DeepSurf将最先进的深度学习架构与基于表面的表示相结合,其中许多局部3D体素化网格放置在蛋白质表面。

image.png

图三 DeepSurf图示

首先,以三角形网格格式创建蛋白质的分子表面,然后进行可选的网格简化步骤,以避免不必要的点冗余。 这是通过使用K-means聚类算法将相邻的表面点分组到聚类中来实现的,同时为每个聚类只保留最接近聚类中心的代表点。为了在特征计算之前实现旋转不变量,局部网格的方向如图三所示,z轴总是平行于P上的法向量n,即垂直于表面。下一步是计算局部网格的每个体素所需的特征,每个蛋白质原子计算18个化学特征,每个网格体素接收其内部原子的特征。 根据以上方案,每个曲面点P形成一个4D张量,输入到3D-CNN中,最终输出一个[0,1]范围内的配位性评分,这个分数表示表面点P属于一个结合点的概率。

在获得所有曲面点的配位性评分后,将评分小于配位性阈值T的点视为不可靠的,予以丢弃,其余的点采用mean-shift算法聚类到3D空间中。所创建的表面簇对应于结合位点,根据其成员点的平均配位性得分对其进行排序。最后,将每个簇的表面点映射到它们最近的蛋白质原子上,以获得原子水平上的结合位点。

方法四:NS-Volume

NanoShaper (NS)是一款基于特殊光线投射方法和CGAL库的高效复杂曲面三角化软件。NS首先用于生成数据集的溶剂排除面(SES)[7]。在NanoShaper中,SES是根据alpha形状理论构建的,它允许推导出精确的解析几何斑块。即使NS主要是为分子表面的三角测量设计的,它也提供了口袋检测功能。

image.png

图四 NS-Volume图示

NanoShaper在探针半径1.4˚A(标准平均水分子半径)和3˚A处创建两个SES分子表面。口袋被定义为两个网格之间的封闭腔(中央面板,浅蓝色3˚三角形顶点)。通过用水球填充确定的空腔来构造口袋表面。为了便于说明,检测到的三个最大的口袋(Top3排名)由红色、橙色和黄色网格按递减顺序表示。该方法不包含任何学习,与上面的数据驱动方法进行比较,显示简单体积排序作为配体结合位点识别策略的有效性。

结果

image.png 该表总结了不同方法在测试集上的性能。除了根据Top1、Top3和Top10(允许返回的最大口袋数)性能评估平均排名性能外,我们还报告了成功预测口袋的LC和PC的平均分数,以及每个结构生成的口袋的平均数量。每一行都表示所分析的一种方法。为了便于比较,我们增加了最后一行,描述Fpocket在同一数据集上获得的结果。Fpocket是口袋检测[8]的标准和完善的工具。这种方法使用PDB文件作为输入(包含完整的化学信息),因此它不适合这种侧重几何特征而不是化学特征的SHREC轨迹。

总结

我们还可以根据它们的输入格式和采用的策略对以上四种方法进行分类。在输入方面,Point Transformer是采用OFF文件表示分子表面的唯一方法,其他三种方法均采用匿名PQR文件表示的模型。不同的是,前三种方法侧重于提出的策略,利用统计学习,而NS-Volume采用直接方法。

尽管上述对四种方法的大体框架进行了介绍,但其实每种方法使用的策略都很复杂,需要进一步钻研分析。我们也可以看出,蛋白质口袋检测任务仍然是一个具有挑战性的学习问题,其内部存在数据不平衡问题,这是很难依靠方法的改进优化解决的问题。但总体来说,有些方法表现也很出色,简单的非机器学习方法与数据驱动算法相比仍然具有很强的竞争力。

接下来我也会逐步进行具体的医药方向论文分析。

参考文献
  1. SHREC 2022: Protein–ligand binding site recognition. Computers & Graphics, 2022.(arxiv.org/pdf/2206.07…)
  2. H. Zhao, L. Jiang, J. Jia, P. H. Torr, and V. Koltun, “Point transformer,” in Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp. 16259–16268, October 2021.
  3. B. Li, S. Turuvekere, M. Agrawal, D. La, K. Ramani, and D. Kihara, “Characterization of local geometry of protein surfaces with the visibility criterion,” Proteins: Structure, Function, and Bioinformatics, vol. 71, no. 2, pp. 670–683, 2008.
  4. T. Kawabata, “Detection of multiscale pockets on protein surfaces using mathematical morphology,” Proteins: Structure, Function, and Bioinformatics, vol. 78, no. 5, pp. 1195–1211, 2010
  5. X. Wang, S. T. Flannery, and D. Kihara, “Protein docking model evaluation by graph neural networks,” Frontiers in Molecular Biosciences, vol. 8, 2021.
  6. S. K. Mylonas, A. Axenopoulos, and P. Daras, “DeepSurf: a surface-based deep learning approach for the prediction of ligand binding sites on proteins,” Bioinformatics, vol. 37, pp. 1681–1690, 01 2021.
  7. S. Decherchi and W. Rocchia, “A general and robust ray-casting-based algorithm for triangulating surfaces at the nanoscale,” PLOS ONE, vol. 8, pp. 1–15, 04 2013.
  8. V. Le Guilloux, P. Schmidtke, and P. Tuffery, “Fpocket: An open source platform for ligand pocket detection,” BMC Bioinformatics, vol. 10, p. 168, Dec. 2009.