摘要[提出一个新概念。提升逼格]
本研究提出了一种基于序列的药物设计概念,通过端到端可微学习利用蛋白质序列信息进行计算药物设计,验证了该概念的可行性,并在挑战性药物靶点和已有药物的逆向应用中取得了新的发现。
研究动机
- 论文背景: 传统的基于蛋白质结构的药物设计(SBDD)流程是一个复杂的、人工设计的过程,包含多个独立优化的步骤。每个步骤都有其局限性,例如许多蛋白质没有高分辨率结构,精确预测活性位点仍然是一个挑战,定义新目标的结合口袋也很困难,虚拟筛选可能会产生假阳性,并且会积累之前步骤的误差。
- 本研究提出了一种基于序列的药物设计概念,通过端到端可微学习直接从蛋白质序列中发现调节剂,避免了复杂流程中的误差积累,为合理药物设计提供了一种新的方法。
技术路线
本文开发了一个名为TransformerCPI2.0的计算模型。该模型采用了一种名为TAPE-BERT的蛋白质语言模型来计算蛋白质序列嵌入,并使用基于自注意力的Transformer编码器进行蛋白质序列表示。该模型还引入了一个新的原子向量来携带分子级相互作用信息。模型的编码器和解码器由多个层组成,具有注意力头和隐藏状态和前馈层的维度。模型使用RAdam优化器和ChEMBL数据集进行训练。训练过程大约需要1.5周。
巨量扎实的实验[论文的竞争力,换道超车]
作者在三个阶段验证了这个概念,包括设计TransformerCPI2.0作为核心工具,解释TransformerCPI2.0学习到的结合知识,以及发现具有挑战性的药物靶点的新发现和现有药物的新靶点的鉴定。
Link
Nat Commun | 上海药物所郑明月团队提出基于序列的药物设计新方法|蛋白质|化合物|药物|配体|靶标|化学|-健康界 (cn-healthcare.com)