使用AlphaFold2进行蛋白质结构预测

507 阅读5分钟

使用AlphaFold2进行蛋白质结构预测

大家好!我的名字是Dima,在这里我想分享我的小项目。它是关于深度学习工具在蛋白质结构预测中的实现。请欣赏!

这篇接近科学技术的小文章应该从我第一次实习的简短故事开始

在2021年12月底,我很幸运地找到了生物信息学领域的在线实习。那是来自LLBio-IT学校的NyBerMan Merit Internship,主要重点是,令人惊讶的(不是),Covid调查。经过一些技术面试和巨大的竞争(近1000名参与者争夺20个名额),我正在计划未来几周的学习和工作。

整个实习被分成5个不同的部分。

  • 文献回顾
  • 蛋白质结构分析
  • 经典建模器的结果与AlphaFold的比较
  • 对接
  • 撰写报告

不幸的是,由于实习时间的限制,我们的导师跳过了AlphaFold这一部分,但我太兴奋了,干脆把这一部分的流水线去掉。因此,我专注于互联网搜索,并找到一些教程来进行分析。

互联网搜索和结果

首先,我找到的是deepmind/alphafoldgithub仓库,在Readme里有关于下载和使用程序的说明。但实际上,我没有足够的内存来下载所有必要的东西,所以我决定尝试用谷歌搜索更多。

最后,我在Medium上找到了类似任务的有用文章。预测冠状病毒的尖峰蛋白。这简直是胜利,因为一切都很清楚我应该做什么和怎么做。在类似研究的GitHubrepo和简单的Azure-ML教程的帮助下,我开始做我的个人调查。

管线的阶段

首先,我必须收集用于构建模型的数据。这是关键的一步,因为输入数据会影响任何项目的整个未来步骤。我找到了不同病毒毒株的穗状蛋白的多态性数据,后来我发现,整个蛋白序列不应该被选作输入数据,因为只有结合区的突变才有意义。这就是为什么我找到了蛋白质中的区域信息,对应于这种结合。来自博茨瓦纳哈佛艾滋病参考实验室的研究人员(登录号:EPI_ISL_6752027)描述了 "巨型突变 "的变体。B.1.1.529.它包含了参考基因组的60个氨基酸突变,其中37个是在穗蛋白中。而且,Spike蛋白的受体结合域(RBD)大约在残基335至525处被保留。

比收集多个序列,包含多态性,并以fasta格式保存。因此,我们有一个sequences.fasta 文件,有4个SARS-CoV-2受体结合域氨基酸序列。

开始

我是用Jupyter笔记本来编写脚本,用Azure机器学习来构建程序。基本上你需要安装这两个工作人员,这就是为什么我在这里让

专业提示:你可以从下面资源中列出的GitHub repo中克隆我的完整笔记本,然后在JupyterLab中打开它。

首先,加载工作区的配置。

config.json文件必须安装在Azure的工作空间的工作目录中。

下一步是编写我们的运行脚本。我在这部分没有重新发明自行车,只是简单地从Colby T.Ford的jupyter笔记本中复制了脚本。

在这一步,我们可以进入下一个阶段,即集群构建和定义脚本运行配置。这些部分在Azure工作区的任何ML实验中都是默认的,所以我使用了笔记本上的代码例子。

每个实验都会使用特殊的工具、库等。而在这种情况下,我们必须定义这些依赖性。我只是简单地复制了带有它们的Docker镜像,没有重新发明任何新东西。

下一步是为实验建立正确的配置。这很重要,因为参数决定了速度、正确性和兼容性。只有在合适的参数下,整个实验才会成功,否则你会面临问题。

在脚本的几次失败后,我想到了使用HyperDrive的想法。实际上,HyperDrive是设置特殊ML模型的一个很好的解决方案。

HyperDrive的配置包括超参数空间采样、终止策略、主要指标、从配置中恢复、估计器以及在实验运行中执行的计算目标等信息。

最后是运行实验。提交这部分代码后,azure日志和指标会出现在笔记本的tap中。

实验执行后,我们可以下载结果。在结果中,有多种格式的输出,但与我的研究最相关的是.pdb大分子。好主意是将这些蛋白质可视化,这正是我所做的。

结论

深度学习工具在蛋白质结构预测领域有着巨大的影响。像AlphaFold2这样的算法可以帮助理解和可视化蛋白质结构,而这些结构并没有在蛋白质数据库中呈现。同时,这种充分的方法可以用相对较小的成本产生大量的新数据。

像微软Azure机器学习这样的云计算服务使实验提交变得更加容易和快速。换句话说,这种服务为研究人员提供了强大的工具来执行非常复杂的任务,如蛋白质结构预测。

综上所述,我的实验为我的实习提供了令人满意的完整管道。这项工作可以用于类似的进一步研究和开发。