Base Framework: paddlepaddle
Big Model: compound representation model, protein representation model, gene omics representation model [预训练模型]
Domian Model: specific models [应用场景]

一. 前置知识

药物发现核心的问题，在于需要针对一个靶点找到一个适合的药物。在疾病发生过程中起关键重要作用的蛋白，我们称之为靶蛋白。而化合物分子则能与这类蛋白结合，通过抑制或激活靶蛋白，使之丧失或者加强原有的功能，从而起到治病作用。在这个过程中，靶点蛋白就如同一把锁，而我们要寻找的药物则更像是能开锁的钥匙。

二传统的药物发现 [严重依赖人工经验\运气]

大多依赖于偶然或不断试错、没有目标地尝试。这种方法往往效率低下、风险性高

三. AI入局赋能

赋能模块: 生物实验, 计算仿真 [耗时长\成本高]

四. 螺旋桨 PaddlePaddleHelix

| 很难用一个模型或者少量模型解决所有的生物计算问题

研究对象: 小分子药物, 大分子蛋白质, 基因, 基因表型, RNA

小分子药物/大分子药物研究问题:DDI,DTI,PPI Interaction Research
RNA药物研究问题: DNA, RNA和Protein的关系
精准医疗: 依托于个体特异性基因型和表型进行精准用药治疗

五. Data Sparsity [Main Challenge]

Pretraining/Representation Learning :到生物计算中，可以利用大量的无监督数据，针对生物医药关心的三类分子，即蛋白质、化合物和DNA/RNA分子进行表示学习
Fine Tuning : 利用少量的监督数据进行多任务及微调，如此就有可能在各个子任务里取得非常好的效果及泛化能力。

PaddlePaddleHelix 怎么做的? 基于表示学习和预训练增强的文心·生物计算大模型

包括: 化合物表征模型HelixGEM、蛋白结构分析模型HelixFold、单序列的蛋白表征模型HelixFold-Single

1. Compound Representation Learning BigModel: Helix-GEM

提出动机: 已经有一些分子建模方式，但是这些方式往往忽略了分子的构象，仅仅只利用了分子的浅表信息。 主要特点:

全球首个利用化合物三维几何空间构象，进行化合物表征的方法。利用几何增强的模型结构，把键长-键角融入建模，使得模型有效捕捉分子的构象信息。
在常用自监督任务上首次引入了几何增强任务，可以通过预测构像学习深层物理化学信息，而不再是浅表信息。
更进一步，针对多种任务，融合了无监督和有监督数据进行了多任务学习，使模型可以泛化到更多的下游任务。 效果如何: 在14个化合物属性的基准数据集中取得了非常好的表现，尤其是在毒性相关以及HIV相关病毒数据集上效果非常好。