「【新智元导读】前有 AlphaFold 破解蛋白质之谜,今有 AlphaGenome 揭示 DNA 天书。谷歌 DeepMind 最新 103 页力作,用 AI 成功预测基因突变,一次即可读取 100 万个 DNA 碱基,精度无「模」能敌。」
基因组,宛如生命的蓝图,藏在我们每一个细胞之中。
这套完整的 DNA 指令集,主导着生命体从外观功能到生长繁殖的几乎每一个方面,甚至是对疾病抵御的能力。
2003 年,人类基因组测序完成,让人类首次窥见了 DNA 的全貌。
然而,如何破译这些指令,一个微小 DNA 变异如何改变生命轨迹,至今仍是生物学的未解之谜。
现在,这个局面将被彻底改写。
今天,谷歌 DeepMind 重磅发布 AlphaGenome——一款革命性的 AI 工具,以及 103 页的详细技术报告。
论文地址:deepmind.google/discover/bl…
一个模型,可读取 100 万个 DNA 碱基,并预测任何基因变异 / 突变如何改变分子的功能。
它不仅限于单个基因预测,而是贯穿了整个调控基因组。
诚如网友所言,「DNA 就是代码,而你就是软件」。
比如,它可以回答「某个基因的活性是会增强还是减弱」。而这,正是生物学家们在实验室中,需要通过大量实验来反复验证的问题。
那么,这是如何做到的?
AlphaGenome 以长 DNA 序列为输入,经过数据处理后,通过表征其调控活性来预测数千种分子特性。
诺奖得主 Demis Hassabis 曾在采访中坚定地表示,「未来十年,AI 将会治愈所有疾病」。
如今,AlphaGenome 的诞生,让这一宏伟的愿景更进一步。
它可以让科学家快速预测基因变化可能带来的影响,推动生物学的全新发现与新疗法的诞生。
「解密生命密码」
「DeepMind 开启 NDA 研究新纪元」
在解密生命「密码」这一领域,谷歌 DeepMind 早已展开布局。
5 年前,蛋白质预测模型 AlphaFold 出世,在业界曾掀起海啸级巨震,还登上了 Neture、Science 年度十大科学发现榜单。
从初代 AlphaFold 到 AlphaFold 3,阶跃式进化,成功预测了人类 98.5% 蛋白质,并拿下 2024 年诺贝尔奖。
这项世界级成果催生了专注于药物发现的衍生公司 Isomorphic Labs,引领了用 AI 设计新药的浪潮。
AlphaGenome 的出世,再一次拓展了 AI 在 NDA 领域的研究。
人类基因约有 30 亿个碱基,但其中只有不到 2% 的序列,用于编码蛋白质,其余 98% 被称为非编码区。
然而,它们对调控基因的活性至关重要,并包含了大量与疾病相关的变异位点。
直到现在,生物学家实际上无法看清它是如何运作的。
AlphaGenome 正是为解读这些广阔的非编码序列及其内部变异,提供了全新的视角。
这是该领域的里程碑式突破。我们首次拥有了一个统一模型,能在各类基因组任务中同时实现长程上下文关联、碱基级精度和最先进的性能表现。
如今,AlphaGenome 能够接收长达 100 万个碱基字母(即碱基对)的 DNA 序列作为输入,并据此预测用以表征其调控活性的数千种分子特性。
通过比对突变序列与原始序列的预测结果,模型还能量化评估基因变异或突变所带来的影响。
AlphaGenome 将一百万个 DNA 碱基作为输入,并预测不同组织和细胞类型中的多种分子特性
这款模型的预测范围非常广泛,包括了在不同的细胞类型和组织中,基因的起始与终止位点、基因的剪接位置、RNA 的生成数量,以及哪些 DNA 碱基是可访问的、哪些在空间上相互靠近、哪些与特定的蛋白质结合等。
AlphaGenome 能够同时做出多方面的预测,得益于其颇具层次的核心架构。
如下图所示,首先通过卷积层初步检测基因组序列中的短模式,再利用 Transformer 架构在整个序列的任意位置之间高效传递信息。
最后,经由一系列输出层,将识别出的模式转化为对不同调控维度的具体预测。
在训练过程中,针对单个序列的庞大计算量,会被分散到多个互联的张量处理单元(TPU)上协同完成。
模型基于谷歌先前的基因组学模型 Enformer 构建,并与 AlphaMissense 模型形成互补——后者专注于分类蛋白质编码区内的变异所造成的影响。
顺便提一句,模型的训练数据源自多个大型公共科研项目,如 ENCODE、GTEx、4D Nucleome 和 FANTOM5。
这些项目通过实验,测量并覆盖了数百种人类及小鼠细胞与组织中基因调控的多种关键维度。
「一次 100 万 DNA 碱基,瞬间预测」
与现有的 DNA 序列模型相比,AlphaGenome 具备几项显著的独特优势:
- 兼顾长序列与高分辨率
处理长序列对于覆盖远距离的基因调控区至关重要,而碱基级别的分辨率则是捕捉精细生物学细节的关键。
以往的模型不得不在序列长度和分辨率之间做出艰难取舍,这限制了它们能够同时建模和准确预测的生物学维度。
而谷歌的技术突破成功克服了这一限制,且并未显著增加训练所需的资源。
训练一个完整的 AlphaGenome 模型(未经蒸馏)仅需 4 小时,算力开销仅为最初训练 Enformer 模型时的一半。
结果就是,AlphaGenome 已经可以实现长达 100 万个 DNA 碱基字母的序列的分析,并能以单个碱基的分辨率进行精细预测。
- 全面的多维度预测
通过解锁对长输入序列的高分辨率预测能力,AlphaGenome 得以对迄今最多样化的生物学维度进行预测。
这为科学家们提供了关于基因调控复杂过程的、更全面的信息。
- 变异效应的高效评估
除了能预测多种分子特性,AlphaGenome 还能在短短一秒内,高效评估某个基因变异对所有这些特性的影响。
它通过对比突变序列与原始序列的预测结果,并针对不同维度采用相应的分析方法,来高效地量化这种差异。
- 创新的剪接点建模
许多罕见的遗传性疾病,如脊髓性肌萎缩症和某些类型的囊性纤维化,病因就可能源于 RNA 剪接过程的错误——在该过程中,RNA 分子的一部分被移除,剩余的两端再重新连接。
值得一提的是,AlphaGenome 首次实现了直接从 DNA 序列出发,预测剪接点,并将其用于变异效应预测。
这为深入理解遗传变异对 RNA 剪接的后果提供了前所未有的视角。
Jun Cheng 是共同一作中唯一的华人
「」
「刷新 SOTA,覆盖多种生物模态」
AlphaGenome 在基因学组基准测试中,表现又如何?
无论是在预测 DNA 分子中哪些部分会在空间上相互靠近,还是在判断某个基因变异是会增强或减弱基因表达,抑或是改变其剪接模式等任务上,这款模型均刷新了 SOTA。
AlphaGenome 在部分 DNA 序列及变异效应预测任务上,性能大幅提升
- 在生成单个 DNA 序列的预测时,24 项评估中有 22 项的表现都超越了当前最优的外部模型。
- 在预测基因变异的调控效应时,26 项评估中有 24 项的表现都达到或超过了顶尖的外部模型。
值得一提的是,上述比较中的外部模型大多是为单一任务专门优化的。
而 AlphaGenome 是唯一能够同时对所有评估维度进行联合预测的模型,这充分凸显了其强大的通用性。
「一个模型,全搞定」
要知道,AlphaGenome 的创新不仅在于准确性,还在于统一性。
以前,科学家可能需要 10 多个模型,才能了解一个突变的作用。而现在,一次 API 调用,还是全分辨率。
科学家仅通过一次 API 调用,就能同时探究某个基因变异对多种不同调控维度的影响。
这意味着科学家可以更迅速地提出并验证科学假说,无需再为了研究不同维度而调用多个不同的模型。
此外,AlphaGenome 的强劲表现表明,它已在基因调控的框架下,学习到了一种相对通用的 DNA 序列特征表示。这使其成为一个坚实的基础,便于更广泛的科研社区在此之上进行构建和拓展。
而且, AlphaGenome 还可以支持特定场景、自己的数据集上,进行适配和微调,从而更有效地解决他们独特的科研难题。
最后,这种统一的方法为,未来提供了一个灵活且可扩展的架构。
通过扩充训练数据,AlphaGenome 的能力还可以被进一步扩展,以获得更优的性能、覆盖更多的物种,或纳入额外的生物学维度,从而使模型变得更加全面和强大。
「DNA 预测,生物学的新曙光」
毋庸置疑,AlphaGenome 的强大预测能力,将为未来多个科研领域的研究提供助力。
首先,它能加深人类对疾病的理解。
通过更精准地预测基因功能扰动,AlphaGenome 能帮助研究人员更精确地定位疾病的潜在根源,并更好地阐释与特定性状相关的变异所造成的功能性影响,从而有望揭示新的治疗靶点。
由此谷歌认为,AlphaGenome 将尤其适合用于研究那些可能引发严重后果的罕见变异,例如导致孟德尔遗传病的变异。
其次,AlphaGenome 还可以赋能「合成生物学」。
模型的预测结果可用于指导设计具备特定调控功能的合成 DNA。例如,设计出仅在神经细胞中激活某个基因,而在肌肉细胞中保持沉默的 DNA 序列。
最最重要的是,AlphaGenome 将会推动未来的生物学基础研究。
通过协助绘制基因组的关键功能元件图谱并阐明其作用,以及识别调控特定细胞功能所必需的核心 DNA 指令,该模型将加速我们对基因组的理解。
举个例子,在一项针对 T 细胞急性淋巴细胞白血病(T-ALL)患者的现有研究中,科研人员发现基因组特定位点的突变。
随后在 AlphaGenome 的加持下,谷歌的研究人员预测这些突变会通过引入一个 MYBDNA 结合基序,来异常激活邻近的一个名为 TAL1 的基因。
这一预测结果与已知的致病机制完全吻合,充分展现了 AlphaGenome 将特定非编码变异与致病基因联系起来的强大能力。
AlphaGenome 将是这个领域的一款强大工具。要确定不同非编码变异的重要性极具挑战性,尤其是在大规模研究的背景下。这款工具将补上这块拼图上至关重要的一块,让我们能够建立更清晰的联系,从而更深入地理解癌症等复杂疾病。
每一次失败的疗法,每一次罕见的疾病,每一种复杂性状,都始于被误读的 DNA。
如今,人类终于可以看清生命这一系统。
当你能清晰洞见系统全貌时,就能开始重新设计它。生物学也就不再神秘莫测,开始变得的可编程。
这是从「认知」到「掌控」的跃迁。AlphaGenome,正是这个转折点。
参考资料: