【AI医药】Drug-protein binding affinity prediction

198 阅读3分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第3天,点击查看活动详情

生物测试是费力和耗时的。利用计算机辅助模拟方法和数据驱动学习模型,可以在药物发现的早期阶段预测绑定亲和力。结合亲和度的预测可以帮助对候选药物进行排序,并优先选择合适的药物进行后续测试,从而加快药物筛选的过程。

通过查阅相关文献,对于DTA的预测方法大致分为以下三类:

一、分子对接方法:通过评分函数预测药物靶点复合体的稳定3D结构。在预测特定配体如何以可承受的计算成本与目标蛋白结合方面发挥着重要作用。

优缺点:虽然对接过程能够较准确地识别蛋白-配体复合物的结合位形,但由于评分功能较差,其对结合亲和性的预测不准确、不可靠,这限制了对接方法在药物发现中的适用性。尽管分子对接方法可能提供更多信息,但它需要蛋白质结晶结构的知识,而这可能是无法获得的。这些模型的成本是巨大的,尤其是考虑到远程交互时。此外,复杂结构中拓扑信息的缺失和对旋转的敏感性都对预测结果产生了负面影响。

二、传统的机器学习方法:利用相似性度量来构建新的特征。通过学习从蛋白质-配体复合物中提取的特征来提高性能。【 KronRLS、SimBoost】

优缺点:机器学习可以使用有限的数据来完成大规模的预测;这些方法通用性有限,需要专家知识,并且严重依赖特征工程。这些技术需要计算相似性矩阵,因此受限于基于蛋白数据库(PDB)列表中的25000种药物的已知药物-靶点符合结构,限制了训练过程中使用的分子数量。

三、基于深度学习的绑定亲和度预测:深度学习模型是DTA预测中表现最好的模型之一。它将复杂数据表示为序列数据、三维网格数据或图数据,并利用各种神经网络进行预测【DeepDTA、WideDTA、GraphDTA、DGraphDTA】。结构生物学中深度学习的关键挑战之一是如何建模三维空间结构以获得更好的性能。为此,现有的大多数工作都试图通过将复杂体作为3D网格表示来应用3D卷积神经网络。

优缺点:这些模型的成本是巨大的,尤其是考虑到远程交互时。此外,复杂结构中拓扑信息的缺失和对旋转的敏感性都对预测结果产生了负面影响。有些模型将药物表示为字符串,这不是表示分子的自然方式,当使用字符串时,分子的结构信息丢失,这可能损害模型的预测能力以及学习到的潜在空间的功能相关性。

以下整理了一些关于药物靶标亲和力预测方向的论文,可供参考,后续也会持续更新! image.png