Prot2Text:利用GNN和Transformer生成多模态蛋白质的功能 | ArXiv

501 阅读3分钟

一、以多模态角度,融合GNN+Transformer, 将分类问题重新表述为自由文本预测问题


近年来,各种机器学习方法的发展使得预测蛋白质功能这一领域取得了重大进展。然而,大多数现有方法将任务表述为一个多分类问题,即为蛋白质分配预定义的标签。

这项工作中提出了一种新的方法Prot2Text,它以自由文本的方式预测蛋白质的功能,超越了传统的二元或分类。通过将图神经网络(GNN)和大型语言模型(LLM)结合在一个编码器-解码器框架中,该模型有效地集成了多种数据类型,包括蛋白质的序列、结构和文本注释。这种多模态方法考虑到蛋白质功能的整体表示,从而能够生成详细准确的描述。为评估该模型,作者从SwissProt中提取了一个多模态蛋白质数据集,并验证了Prot2Text的有效性。这些结果突出了多模态模型的变革性影响,特别是GNN和LLM的融合,为研究人员提供了更准确预测蛋白质功能的强大工具。

思考:

  • 问题层面:对于分类问题提出了一个新颖的处理思路;
  • 数据层面:以多模态的思路处理蛋白质表示;
  • 模型层面:探索 GNN+LLM 的融合(此前药物联用预测也用类似的策略)

二、LLM-Transformer 在药学领域应用广泛

Transformer架构的使用扩大到,如Graph、Protein Sequence(Alphafold) 和 SMILES。它们都是用 BERT 中引入的掩模语言建模任务(MLM)进行预训练的,并且主要执行判别任务

三、Protein Representation Learning

在蛋白质表征学习领域,多年来出现了各种方法,旨在使用不同的数据模式和计算技术从蛋白质中捕获有意义的信息. 混合方法集成了多种数据模式,如蛋白质序列、结构和功能注释[一段Descrption文本],以创建全面的表示。这些方法结合了基于序列和基于图的方法的优势来捕获蛋白质功能的各个方面

四、Protein Graph Learning

无亮点。典型的GNN做特征提取,然后,池化统一维度,得到Graph Embedding: Hgraph=R(Nxdout) 区别点是,其使用了Alphafold,从Sequence预测Structure Information。

五、Protein Sequence Learning

为了编码蛋白质序列,作者使用蛋白质语言模型ESM2-35M作为基础模型,它使用基于transformer的架构和注意机制来学习输入序列中氨基酸对之间的相互作用模式。 为了实现空间域内所有模态的统一表示维度,在ESM模型的最后一个隐藏层之后再加一个投影层, 可以将从ESM嵌入维度导出的单个氨基酸表示转换为图嵌入维度 Hsequence=R(Nxdout)

五、Multimodal Fusion

讲好了一个故事。其实本质仅仅是简单的维度contact. 为了获得最终的蛋白质编码,作者利用融合模块将矩阵Hsequence内的每个氨基酸的表示与图形表示向量Hgraph结合起来。融合过程包括简单的两个表示的元素相加,然后是投影层。

六、Text Generation(Decoder Layer)

image.png arxiv.org/abs/2307.14…

总结:

  1. 从问题的起点入手,改变看待问题的方式,比如将分类问题利用LLM转换为文本生成问题。所以,是一个开创性的工作
  2. 蛋白质特征编码模块:利用了ESM2