【AI医药】Protein-ligand binding affinity prediction

297 阅读4分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第4天,点击查看活动详情

DeepDTAF: a deep learning method to predict protein–ligand binding affinity

论文地址期刊(年份)
doi.org/10.1093/bib…Briefings in Bioinformatics(2021)

摘要
DeepDTAF通过整合局部和全局上下文特征来预测蛋白质配体结合亲和力。更具体地说,蛋白质结合口袋具有直接与配体结合的特殊性质,首次作为蛋白质与配体结合亲和力预测的局部输入特征。此外,利用扩张卷积来捕捉多尺度的长程相互作用。DeepDTAF由三个独立的模块组成,即整个蛋白质模块、局部口袋模块和配体SMILES模块。每个模块的输入用化合物序列残差或SMILES串表示,而序列的残留信息不仅包含类型,还包含结构性质,即二级结构元素、理化特征。蛋白质模块和口袋模块分别用于提取全局特征和局部特征。扩展卷积和传统卷积分别用于捕获长程和短程相互作用。最后将三个模块的卷积层和最大池化层的特征拼接在一起,通过全连接层输出亲和力分数。

DeepDTAF模型图

image.png

输入:在本研究中,标签编码仅使用1D序列数据。为了更有效地获取交互信息,将基于文本的输入信息分为配体表示、蛋白质表示和口袋表示三部分。
配体表示:使用Open Babel将所有配体SDF文件转换为SMILES字符串。64个字符用于配体SMILES字符串的表示,每个字符用一个特殊的整数编码('H':12,'N':14,'C':42,'O':48,'(':1等)。
蛋白质表示:1.序列表示:使用21维one-hot向量编码21种不同类型的蛋白质序列残基;
2.结构属性表示:本研究中结构性质包括二级结构元素(SSEs)和物理化学特征。结构属性表示。使用8维one-hot向量编码SSEs,其中包括α-螺旋(H)、孤立β-桥残基(B)、延伸链、参与β阶梯(E)、氢键转折(T)、310螺旋(G)、π螺旋(I)、弯曲(S)和线圈(C)。此外,根据侧链结构给出了非极性、极性、酸性、碱性,并根据其偶极子和侧链体积给出了7个基团来描述每种残基的物理化学特征。因此,使用11D向量对理化特征进行编码。综上所述,用每个残基的19维向量表示结构性质。
3.口袋表示:口袋通常是指蛋白质内部或表面的结合腔,它具有某些特殊的物理化学和几何性质,可以直接结合小分子化合物。此外,蛋白质与配体的相互作用主要依赖于配体与蛋白质口袋的结合。口袋是由一个不连续的序列组成,其中包括蛋白质的一些关键氨基酸。因此,将一个口袋作为整体进行局部特征提取。局部口袋特征至关重要,首次作为输入信息用于蛋白质配体结合亲和力预测。在此,通过整合上节中所述的序列表示和结构性质表示,对每个口袋残差采用40维特征向量进行编码。

模型:本研究将基于深度卷积神经网络的架构应用于DeepDTAF预测结合亲和力。开发了一种结合局部特征和全局特征的模型,以提取更丰富的交互信息,并使用扩张卷积来取代传统卷积,以扩大接受野,捕捉更远距离的交互。
DeepDTAF首先将蛋白质、口袋和配体的一维序列转换为序列、结构性质信息或SMILES信息,然后将输入信息馈送到嵌入层和扩张层或传统卷积层。最后,将这些特征连接起来,送入FC层进行绑定亲和性预测。

实验结果:比较了基线方法以及消融实验

image.png

image.png

结论:1.DeepDTAF结合蛋白质的局部特征和全局特征,提取不同尺度的信息。并且首次使用蛋白质结合口袋作为局部输入特征来预测DTA;
2.除了蛋白质序列特征外,我们还为蛋白质添加了额外的结构特征,即SSEs和物理化学特征,这些特征更具有生物学意义;
3.利用扩张卷积从蛋白质和配体模块中提取长程相互作用,采用传统的卷积方法来获取口袋模块的短程相互作用。将扩张卷积与传统卷积相结合,有效捕捉多尺度的相互作用。

code: github.com/KailiWang1/…