【新智元导读】 继 AlphaGo 在围棋上碾压人类后,DeepMind 再放大招!这次战场转移到了基础科学研究领域:蛋白质折叠结构的预测。在有蛋白质结构预测的 “奥运会” 之称 CASP 全球竞赛上,DeepMind 推出的 AI 工具 AlphaFold 以优异成绩碾压了人类专家。
还记得在围棋上碾压人类棋手的 AlphaGo 吗?现在,AlphaGo 的缔造者 DeepMind 又再另一领域碾压了人类专家。
这个领域就是 “蛋白质折叠” ,也就是蛋白质结构的精确预测!这是 DeepMind 首次将视角投向科学研究的基础问题。在有蛋白质结构预测的 “奥运会” 之称 CASP 全球竞赛上,DeepMind 推出的 AI 工具 AlphaFold 以优异成绩碾压了人类专家。
DeepMind 汇集了来自结构生物学,物理学和机器学习领域的专家,以应用尖端技术,仅根据其基因序列预测蛋白质的 3D 结构。
过去两年来,DeepMind 一直在研究开发 AlphaFold,该研究建立在多年研究基础上,使用大量的基因组数据来预测蛋白质结构。 AlphaFold 生成的蛋白质 3D 模型比之前的任何蛋白质都更加准确 - 在生物学的核心挑战之一上取得了重大进展。
什么是 “蛋白质折叠” 问题?
蛋白质是维持生命所必需的结构复杂的大分子。我们的身体几乎所有功能,包括肌肉收缩、感知光线或将食物转化为能量,都与一种或多种蛋白质的移动和变化情况有关。蛋白质由基因构成,基因在我们的 DNA 中编码。
对于任何给定的蛋白质,它的功能取决于其特有的 3D 结构。比如构成我们免疫系统的抗体蛋白质是 “Y 形” 的,类似于一种特殊的钩子。通过抗体蛋白质能够锁定病毒和细菌,检测和标记致病微生物,以便消灭它们。而胶原蛋白的形状就像绳索,在软骨、韧带、骨骼和皮肤之间传递张力。
其他类型的蛋白质包括 CRISPR 和 Cas9,它们能够像剪刀一样,切割和粘贴 DNA。还有抗冻蛋白,其 3D 结构使其能够与冰晶结合,防止生物体冻结。和核糖体一样,可以像程序化的装配线一样,帮助自己构建蛋白质。
但是纯粹从其基因序列中确定蛋白质的三维形状是一项复杂的任务,挑战在于 DNA 仅包含有关蛋白质结构块序列的信息,这些结构块称为氨基酸残基,排布形成长链。预测这些长链按照何种方式折叠成蛋白质的复杂 3D 结构,就是所谓的 “蛋白质折叠问题”。
蛋白质越大,模型就越复杂和困难,因为氨基酸之间的相互作用更加复杂。有研究人员估计,以现有的条件的水平,要想准确确定全部蛋白质的 3D 结构,需要的时间可能比宇宙的寿命还要长。
为什么 “蛋白质折叠” 很重要?
预测 “蛋白质折叠” 的结构,对科学家来说是很有用的,可以通过这种方式了解蛋白质在人体内的作用,对阿尔茨海默氏症,帕金森氏症,亨廷顿氏症和囊性纤维化等由蛋白质折叠方式错误而引发的疾病的诊断和治疗而言,这个问题就显得更加重要。
通过研究蛋白质折叠,能够增进我们对人体运行机制的理解,使科学家能够更有效地设计新的、高效的疾病疗法。通过模拟和模型获得更多关于蛋白质形状及其运作方式的知识,也给新药物的开发开辟了新的潜力,降低了与实验成本。最终得以改善全世界数百万患者的生活质量。
对蛋白质折叠的理解也将有助于蛋白质的设计,比如推进生物降解酶技术的进步,就可以通过对蛋白质设计来实现。生物降解酶可以对塑料和石油等污染物实现控制管理,让人们用更加环境友好的方式分解废物。事实上,研究人员已经开始设计细菌来分泌蛋白质,提高废物的可降解度。
为了衡量人类在蛋白质结构测定技术上的新进展,1994 年,科学家发起了名为 “蛋白质结构预测技术关键评估社区范围实验”(CASP)的全球竞赛,该比赛每两年举办一次,现已成为领域内评估蛋白质结构水平的 “金标准”,堪称蛋白质结构预测领域的 “奥运会”。
此次 DeepMind 让 AlphaFold 参加本次盛会。比赛目标是从主办方给出氨基酸成分列表中预测蛋白质的结构,这些表会在赛前几个月内每隔几天发给参赛团队。提交最准确预测信息的团队将获胜。
结果首次参赛的 AlphaFold 就在 98 位参赛者中脱颖而出,以碾压级优势一举夺冠。在对总共 43 种蛋白质的预测中,AlphaFold 获得了其中 25 种的最高分数,排名第二的队伍获得最高分数的蛋白质只有 3 种。
AI 在 “蛋白质折叠” 任务中大展身手
在过去半个世纪中,科学家们已经能够使用冷冻电子显微镜、核磁共振或 X 射线晶体学等技术来确定实验室中蛋白质的形状,但每种方法都依赖于大量的试验,而且错误率不低,且成本高昂。越来越多的生物学家正在转向了 AI 方法,作为解决这个困难问题的替代方法。
由于基因测序成本的快速降低,基因组学领域的数据非常丰富。因此,在过去几年中,依赖于基因组数据的预测问题的深度学习方法变得越来越流行。
AlphaFold 从头开始对蛋白质的形态结构进行建模,而没有使用已经解析的蛋白质作为模板。结果在预测蛋白质结构的物理性质时达到高准确度,在此基础上使用两种不同的方法,来构建完整蛋白质结构的预测。
基于深度学习的蛋白质结构预测新方法
这两种方法都依赖于深度神经网络,可以从蛋白质的基因序列中预测其特性。该网络预测指标主要有两个: (1)氨基酸对之间的距离(2)连接这些氨基酸的化学键之间的角度。 这是对目前的一种常用技术的进一步推进,该技术用于估计氨基酸对之间是否彼此接近。
DeepMind 团队训练神经网络,预测蛋白质中每对残基之间的距离的单独分布。然后将这些概率进行组合,形成相应蛋白质结构预测的准确度分数。此外还训练了一个单独的神经网络,将所有的预测距离汇总,估计出预测结构与实际结构间的接近程度。
使用这些评分函数,可以找到与预测相匹配的蛋白质结构。第一种方法建立在结构生物学中常用的技术基础上,用新的蛋白质结构片段反复替换原蛋白质结构片段。 为此,研究团队训练了一个生成神经网络来发明新的蛋白质片段,不断提高预测的蛋白质结构的得分。
第二种方法通过梯度下降来优化得分。 梯度下降是机器学习中常用的技术,可用于实现微小的,渐进式的改进,最终产生高精确的结构。研究人员将该技术用于整个蛋白质长链上,而不是在组装之前必须单独折叠的碎片上,降低了预测过程的复杂度。
未来:继续投入解决科学上的基础性问题
DeepMind 首次涉足蛋白质折叠领域就获得成功,表明机器学习体系具备无穷潜力,可以整合各种信息源,帮助科学家快速提出解决复杂问题的创造性解决方案。正如 AI 通过 AlphaGo 和 AlphaZero 等系统在围棋上的突破一样,希望在不远的未来,AI 技术突破将帮助我们解决科学上的基础性问题。
“对我们来说,这是一个非常关键的时刻,”DeepMind 的联合创始人兼首席执行官 Demis Hassabis 说。“这是一个灯塔项目,是我们在人员和资源方面,向解决现实世界中的重大基础科学问题做出的第一次重大投入。”
Hassabis 表示,未来还有很多工作要做。目前我们还没有解决蛋白质折叠问题,现在取得的结果只是第一步。“这是一个极具挑战性的问题,但我们建立起了一个很优秀的系统,而且还有很多想法尚未真正实施。”
参考链接: