HelixFold 3 全球首个完整复现 AlphaFold 3,百度智能云 CHPC 为人类生命探索提供算力平台支撑

64 阅读10分钟

01 AlphaFold 3 ,未来的诺贝尔奖得主?

2020 年 12 月,AlphaFold 2 发布。相较于之前实验成本高、耗时长、蛋白质结构解析困难的传统方法,AlphaFold 2 可以通过深度学习技术,仅需几小时就能准确地预测蛋白质的三维结构,极大地加速了生物医学研究的速度。

众所周知,在包括人体在内的生物体当中,蛋白质并不是孤立运作的,蛋白质与各种其他分子的相互作用会贯穿不同的生物功能,这影响着研究生物和疾病的机理和通路、药物的研发等。但是,AlphaFold 2 无法预测蛋白质与其他类型分子的相互作用。

2024 年 5 月,DeepMind 发布了更先进的 AlphaFold 3,支持不同类型的生物分子(包括蛋白、小分子配体、DNA、RNA 和离子)之间的相互作用,并大大加速了蛋白质结构的绘制。在过去,研究人员可能需要用数年时间才能建模出一个结构,但 AlphaFold 3 现在只需几分钟,即可获得与实验精度相当的预测结果。

AlphaFold 3 在用 AI 技术「理解和建模生物学」道路上迈出的重要一步。有专家预言「AlphaFold 3 也许会在未来获得诺贝尔奖」。

02 全球首个对标 AlphaFold 3 的国产大模型 HelixFold 3

尽管 AlphaFold 3 取得了显著进展,但其尚未开源且约束了每个账户每天的调用次数,这严重制约了新技术在科研和产业界的发展。

尽管有团队尝试根据 AlphaFold 3 的论文进行复现,但完整复现 AlphaFold 3 的所有任务,其工作难度颇高,不仅需要研发团队在生物数据、模型训练层面有积累,更是对团队整体工程代码和产品架构能力的综合考验。

百度螺旋桨团队凭借多年在生命科学领域的研发积累,于 2024 年 8 月,正式对外发布 HelixFold 3 ,在常规的小分子配体、核酸分子(包括 DNA 和 RNA)以及蛋白质的相互作用和结构预测上,成功复现 AlphaFold 3 的效果。HelixFold 3 也是全球首个对标 DeepMind AlphaFold 3 的模型。

图片

HelixFold 3 可以将 AI 技术更好的引入到如共价结合、化学修饰、PROTAC、分子胶、金属酶等之前 AI 技术较难触达的场景中,大大扩展了 AI 技术在生命科学领域的应用范围,使得复杂分子的设计成为可能。

此次 HelixFold 3 的成功研发,有赖于百度在该领域的持续积累,也有赖于合作伙伴们的大力支持,是百度螺旋桨团队、百度智能云、太初元碁、神威数智等强强联合的重要技术成果,更是我国科技生态建设的重要里程碑,提升了国产大模型研发技术在全球 AI 大模型领域的竞争力。

03 HelixFold 3 高性能计算线上服务

现在,百度螺旋桨 PaddleHelix 团队联合百度智能云的「云高性能计算平台  CHPC」,提供 HeliexFold 3 高性能计算线上服务。借助云高性能计算平台  CHPC,科研人员可以低成本进行大规模的结构预测,精准筛选出高潜力候选分子,降低试错成本,提升药物研发效率。

此外,百度智能云 CHPC 平台还集成了其他生命科学类应用,适用于小分子药物、多肽/蛋白药物以及 mRNA 药物研发等场景,支持灵活的 API 调用、无代码操作。同时,CHPC 对这些应用进行了性能优化,加速新药的创制和优化过程,为人类生命探索提供算力平台支撑。

使用 HelixFold 3 预测生物分子结构 – CHPC 实践指南:cloud.baidu.com/doc/CHPC/s/…

研究人员借助 HelixFold 3 高性能计算线上服务,仅需几步简单的点击操作,就可以通过  HelixFold 3 对蛋白质、DNA、RNA 、选定配体等组成的复杂生物分子结构进行建模,预测蛋白质与细胞内其他分子的相互作用,协助研究者制定新的研究假设与验证,加速研究与开发流程。即便是没有广泛计算资源或深厚机器学习背景的研究者,也能轻松上手。

为了更好地满足客户商业开发需求,我们即将提供 API 服务,支持客户大批量任务的提交,客户也可以将工具无缝集成到自己的工作研究流程中,用于进行小分子/蛋白质筛选、设计等下游工作,快速进行科学研究与商业开发。

图片

目前, HelixFold 3 在多个生命科学客户的项目中完成测试应用。某制药行业的研发负责人表示:

AlphaFold 3 刚发布不到 3 个月,国产大模型就能复现其效果,并且 HelixFold 3 对蛋白质和细胞内其他分子的预测准确性表现出色,效果令人意外。

04 HHelixFold 3 与 AlphaFold 3 效果对比

通过我们的测试,在常规的小分子配体、核酸分子(包括 DNA 和 RNA)以及蛋白质的相互作用和结构预测上,HelixFold 3 精度与 AlphaFold 3 线上服务相媲美。

4.1 小分子配体

为了评估其在蛋白质–配体结构预测中的效果,HelixFold 3 与其他主流方法在 PoseBusters 数据集上的表现进行了对比。PoseBusters 是一个用于评估配体对接算法的基准数据集,最初包含了428 个结构(PoseBusters V1),在排除了那些与多个生物分子单元内距离小于 5.0Å 的配体数据后,精简为 308 个结构(PoseBusters V2)。

我们对比的基线方法可以分为三类:不指定真实蛋白质结构的方法、指定已知蛋白质结构的方法,以及指定活性位点残基的方法。在这两个版本的数据集上,HelixFold 3 即便在没有指定蛋白质结构的情况下,仍然展示出卓越的表现,成功率甚至超过了依赖已知蛋白质结构的方法,其预测精度与目前顶尖的 AlphaFold 3 相当,这表明 HelixFold 3 在蛋白质-配体相互作用预测领域的出色潜力。

模型预测的配体结构在立体化学和物理合理性是大家所关注的,使用 PoseBusters 测试套件可以评估了分子内部和分子之间的各种合理性指标。无论是 HelixFold 3 还是 AlphaFold 3,在几乎所有指标上都达到了 90% 以上的通过率。

图片

4.2 核酸分子

由于核酸分子的结晶结构数量很少,完全无人为干预地自动化地准确预测其结构一直是一个巨大的挑战。对于核酸分子效果的评估,HelixFold 3 在 CASP15 (蛋白质结构预测领域的重要国际竞赛)中有结晶结构的 RNA 样本及从 ProteinData Bank(PDB) 中最新收集的 41 个 RNA 分子和 41 个 DNA 分子进行评测。

HelixFold 3 在 CASP15 的 RNA 样本的精度虽然还不及有人工干预的方法AIchemy_RNA2,但在能够完全自动化推理的 RNA 模型当中已经达到了与 AlphaFold 3 相当的水平。在从 PDB 最新收集的 RNA 和 DNA 的结构预测上,HelixFold 3 的精度亦是极具竞争力,远超专门为核酸分子结构预测所设计模型 RoseTTAFold2NA 和另一个全原子生物分子结构预测模型 RoseTTAFold-AllAtom。

图片

图片

4.3 蛋白质

在蛋白质-蛋白质复合体结构预测领域,尽管 AlphaFold-Multimer 在先前模型的基础上实现了显著的进步,但其成功率和准确性仍有进一步提升的空间。AlphaFold 3 则在此基础上进一步优化了预测能力,展现出更为优异的性能。

当前,HelixFold 3 在蛋白质-蛋白质复合体结构预测方面已经略微超越了 AlphaFold-Multimer 的表现,展示出更强的预测能力。然而,与 AlphaFold 3 相比,HelixFold 3 仍存在一定的性能差距。因此,未来的研究工作将继续致力于优化和迭代 HelixFold 3,以缩小这一差距,力求在预测精度和成功率上进一步提升。

图片

4.4 模型置信度

HelixFold 3 结构预测模型的置信度评分可用于评估模型预测的结构准确性。HelixFold 3 分别对小分子配体-蛋白质数据集 PoseBusters 和从 PDB 中收集的蛋白质-蛋白质复合体,RNA 分子和 DNA 分子输出的置信度评分。我们都可以观测到置信度评分与结构的准确性间具有很强的相关性。

图片

————END————

推荐阅读

百度搜索结果波动的极致治理

PaddleX图像分割赋能医疗领域筛查检测,打造智能医疗诊断系统

百度智能云x️石家庄交管局,大模型打造全时在线数字交警

百度Android IM SDK组件能力建设及应用

百度智能云向量数据库创新和应用实践分享