DeepMind 开源 AlphaFold 2 —— 用于预测蛋白质结构的深度学习神经网络

后端之巅 行业动态 10月前 阅读 389

图:由机器学习软件预测的人类白细胞介素-12蛋白与其受体结合的结构。

资料来源:Ian Haydon,华盛顿大学医学院蛋白质设计研究所

7月15日,DeepMind 公司发布了其深度学习神经网络 AlphaFold 2 的开源版本。他们曾在《自然》杂志的一篇论文中描述了其方法[1],AlphaFold 2 在去年的蛋白质结构预测比赛中赢得了领先地位

与此同时,一个学术团队在 AlphaFold 2 的启发下开发了自己的蛋白质预测工具,它已经获得了科学家的青睐。该系统名为 RoseTTaFold,性能几乎与AlphaFold 2一样好,并在7月15日发表于_《科学》_杂志的一篇论文中进行了描述[2]

伊利诺伊州芝加哥大学的计算生物学家Jinbo Xu说,这些工具的开源性质意味着科学界应该能够在这些进展的基础上创建更加强大和有用的软件,他没有参与这两项工作。

AlphaFold 2 源代码:github.com/deepmind/al…


以下介绍来自 Nature 官方简报:www.nature.com/articles/d4…

从结构到功能

蛋白质是由一串氨基酸组成的,当它们折叠成三维形状时,决定了这些蛋白质在细胞中的功能。几十年来,研究人员一直使用X射线晶体学和冷冻电子显微镜等实验技术来确定蛋白质结构。但是这种方法可能很耗时,而且成本很高,有些蛋白质不适合这种分析。

DeepMind去年在科学界掀起了惊涛骇浪,因为它表明其软件可以仅用蛋白质的序列(由DNA决定)就能准确预测许多蛋白质的结构。研究人员几十年来一直在研究这一挑战,AlphaFold 2在两年一度的名为CASP的蛋白质预测活动中表现出色,以至于该比赛的联合创始人宣布 "从某种意义上说,这个问题已经解决了"。

DeepMind--它以对自己的工作讳莫如深而闻名--在12月1日CASP的一次简短演讲中描述了AlphaFold 2。它承诺将发表一篇更详细地概述该网络的论文,并将该软件提供给研究人员,但没有说其他的。

"西雅图华盛顿大学的生物化学家大卫-贝克(David Baker)说,他的团队开发了RoseTTaFold,"在学术界,有相当多的厄运和忧愁。"如果有人解决了你正在研究的问题,但没有透露他们是如何做到的,你如何继续研究?"

"我当时感觉自己失去了工作,"贝克团队的成员、计算化学家Minkyung Baek说。但是DeepMind的演讲也激发了白明英迫不及待地想要探索的新想法。因此,她、贝克和他们的同事开始集思广益,想办法复制AlphaFold 2的成功。

他们确定了几个关键的进展,包括网络如何使用与研究人员试图预测的目标在进化上相关的蛋白质信息,以及一个蛋白质的一个部分的预测结构如何影响网络如何处理与分子的其他部分对应的序列。

RoseTTaFold不仅表现得几乎与AlphaFold 2一样好--而且也比其他CASP项目(包括贝克实验室的一些项目)好得多。目前还不清楚为什么它不能与AlphaFold 2相提并论,但一种可能性是DeepMind的专业知识,Baek说。"我们的实验室没有任何深度学习的工程师"。Xu对Baek、Baker和他们的合作者的努力印象深刻,他怀疑DeepMind的成功归功于其获得的工程专业知识和卓越的计算能力。

快速的结构

DeepMind还精简了AlphaFold 2。AlphaFold的首席研究员约翰-詹普说,该网络需要花费数天的计算时间来为CASP的一些条目生成结构,而开源版本的速度大约是16倍。它可以在几分钟到几小时内生成结构,这取决于蛋白质的大小。这与RoseTTaFold的速度相当。

尽管AlphaFold 2的源代码是免费提供的--包括向商业实体提供--但它对没有技术专长的研究人员可能还不是特别有用。DeepMind已经与选定的研究人员和组织合作,包括总部设在瑞士日内瓦的非营利性被忽视疾病药物倡议,以预测特定的目标,但它希望扩大使用范围,DeepMind的科学AI主管Pushmeet Kohli说。"在这个领域,我们想做的还有很多。"

除了免费提供RoseTTaFold的代码外,贝克的团队还建立了一个服务器,研究人员可以将蛋白质序列插入其中并获得预测的结构。贝克说,自从上个月启动以来,该服务器已经预测了由大约500人提交的5000多个蛋白质的结构。

徐说,随着RoseTTaFold和AlphaFold 2的代码现在可以免费使用,研究人员将能够在这两项进展的基础上再接再厉,也许能使这些技术适用于AlphaFold 2迄今为止难以预测的蛋白质结构。两个备受关注的领域是预测多个相互作用的蛋白质的复合体结构,以及将该软件应用于新型蛋白质的设计。

doi:doi.org/10.1038/d41…

参考文献


  1. Jumper, J.et al. _Nature_doi.org/10.1038/s41… (2021).

    文章来源:谷歌学者

  2. Baek, M.et al. _Science_doi.org/10.1126/sci… (2021).

    文章 谷歌学者

评论