-
Base Framework: paddlepaddle
-
Big Model: compound representation model, protein representation model, gene omics representation model [预训练模型]
-
Domian Model: specific models [应用场景]
一. 前置知识
药物发现核心的问题,在于需要针对一个靶点找到一个适合的药物。在疾病发生过程中起关键重要作用的蛋白,我们称之为靶蛋白。而化合物分子则能与这类蛋白结合,通过抑制或激活靶蛋白,使之丧失或者加强原有的功能,从而起到治病作用。在这个过程中,靶点蛋白就如同一把锁,而我们要寻找的药物则更像是能开锁的钥匙。
二 传统的药物发现 [严重依赖人工经验\运气]
大多依赖于偶然或不断试错、没有目标地尝试。这种方法往往效率低下、风险性高
三. AI入局赋能
赋能模块: 生物实验, 计算仿真 [耗时长\成本高]
四. 螺旋桨 PaddlePaddleHelix
| 很难用一个模型或者少量模型解决所有的生物计算问题
研究对象: 小分子药物, 大分子蛋白质, 基因, 基因表型, RNA
-
小分子药物/大分子药物研究问题:DDI,DTI,PPI Interaction Research -
RNA药物研究问题: DNA, RNA和Protein的关系 -
精准医疗: 依托于个体特异性基因型和表型进行精准用药治疗
五. Data Sparsity [Main Challenge]
Pretraining/Representation Learning:到生物计算中,可以利用大量的无监督数据,针对生物医药关心的三类分子,即蛋白质、化合物和DNA/RNA分子进行表示学习Fine Tuning: 利用少量的监督数据进行多任务及微调,如此就有可能在各个子任务里取得非常好的效果及泛化能力。
PaddlePaddleHelix 怎么做的? 基于表示学习和预训练增强的文心·生物计算大模型
包括: 化合物表征模型HelixGEM、蛋白结构分析模型HelixFold、单序列的蛋白表征模型HelixFold-Single
1. Compound Representation Learning BigModel: Helix-GEM
提出动机: 已经有一些分子建模方式,但是这些方式往往忽略了分子的构象,仅仅只利用了分子的浅表信息。 主要特点:
- 全球首个利用化合物三维几何空间构象,进行化合物表征的方法。利用几何增强的模型结构,把键长-键角融入建模,使得模型有效捕捉分子的构象信息。
- 在常用自监督任务上首次引入了几何增强任务,可以通过预测构像学习深层物理化学信息,而不再是浅表信息。
- 更进一步,针对多种任务,融合了无监督和有监督数据进行了多任务学习,使模型可以泛化到更多的下游任务。 效果如何: 在14个化合物属性的基准数据集中取得了非常好的表现,尤其是在毒性相关以及HIV相关病毒数据集上效果非常好。
2. Protein Representation Learning BigModel: HelixFold-Single
3. Protein Structure Predicting BigModel: Alpha-Fold
不足:
- 主要利用蛋白的同源序列信息及模版信息, 耗时相对较长,通常需要半小时
- 针对同源序列缺失的孤蛋白情况,AlphaFold2的预测效果实际上相对较差 改进方向: 基于一级序列的蛋白质表示进行预测.
4. Protein Structure Predicting BigModel: Helix-Fold
策略: 期待通过大参数量的模型及大数据量进行预训练,能够降低Folding对同源序列搜索的需求,使折叠时间有可能从30分钟缩短到数十秒的级别,对于孤蛋白也具有更好的泛化能力。
- Protein Representation Model
- Helix-Fold 性能极大提升的同时,精度也不输AlphaFold2,甚至效果更优; HELIX-Fold基于飞桨进行深度优化,相同模型、相同硬件的情况下会比Jax的性能更优越。在国产的千卡DCU硬件上,可以实现2.6天的训练收敛
Case Study
小分子药物领域
what: 在小分子领域,与创新的药物研发企业合作,在药物研发管线里用模型替代虚拟筛选及亲和力排序等一系列的环节和流程 Result: 在自身免疫疾病相关的新靶点上可以筛选到活性在10个微摩尔的苗头化合物。
大分子蛋白质领域
与国内某领先的三甲医院合作,利用蛋白结构预测模型和蛋白功能预测模型,可以支持长度在4000以上的蛋白分析任务