单细胞大模型论文汇总

19 阅读13分钟

一、 scBERT-“single-cell bidirectional encoder representations from transformers (scBERT)”

摘要:

scbert 用于细胞类型注释任务;

  1. 亮点预训练:使用百万级别的无标签数据进行预训练-->学习广泛的单细胞RNA测序知识;

  2. 监督微调:使用带已知细胞标签的数据集进行微调;

  3. scBERT没有位置编码-->“First, the embedding of BERT includes token and position embeddings25” (Yang 等, 2022, p. 853) ;“absolute positions are meaningless for genes.” (Yang 等, 2022, p. 853)

  4. scBERT使用分箱表达值;

  5. 亮点scBERT不进行HVG选择和PCA降维,其使用了“Performer”` (Yang 等, 2022, p. 853)去实现16000维基因的输入;

  6. 亮点scBERT输入嵌入的组成(两种):

    1. 基因嵌入(Gene Embedding) :scBERT 通过 gene2vec 方法为每个基因生成一个 基因嵌入(gene embedding) ,从而捕捉基因之间的相似性。
    2. 表达嵌入(Expression Embedding) :基因的表达量是连续变量,scBERT 使用类似 NLP 中的词频分析(bag-of-words) 的方法,将基因表达量转化为离散值,并将其表示为 200 维向量,作为模型的 token 嵌入。含有表达值为0的基因。

Result

  1. 在使用scBERT计算查询细胞(query cell)在每种细胞类别下的概率时,如果存在高置信度的细胞类别,则该查询细胞的细胞类型将被确定为此高置信度类别。若没有高置信度的细胞类别被选中,则该查询细胞将不被分配具体的细胞类型,并被视为一种新发现的细胞。

二、scmFormer:通过多任务 Transformer 集成大规模单细胞蛋白质组学和转录组学数据

scmFormer的作用--> 整合多模态单细胞数据;

三、scGPT

Yun03上测试scGPT;

scGPT的下游注释任务中,手动调整其FlashMHA,模型损失是正常下降的。

现有scRNA模型的预训练不足:

  1. 基本上是以简单的掩码语言建模为主要的预训练目标;
  2. 使用的模型多以Bert为主;

目前想法:

  1. 使用更复杂的预训练任务作为预训练目标。而不局限于MLM,例如此视频中所描述的:www.bilibili.com/video/BV19Q…

  2. mamba框架的使用,基于mamba框架实现简单的MLM预训练任务;

三、GeneCompass:知识引导下的跨物种通用基因调控机制破译基础模型

知识嵌入的生成和整合

geneCompass使用四种先验知识嵌入:GRN嵌入,启动子信息嵌入,基因家族注释嵌入,基因共表达关系嵌入。

四种先验知识会被编码为一个768维的向量,之后这个768维的向量再与基因ID,表达值嵌入进行incorporate操作。

接下来分别解释这四种先验知识,以及它们是如何转变为向量的:

  1. GRN 嵌入:

    • 使用来自Encyclopedia of DNA Elements(ENCODE)的成对scATAC和scRNA数据构建了PECA2基因调控网络。
    • 生成了84个小鼠和76个人类基因调控网络;
    • 对于存在基因调控关系的基因对,使用gene2vec方法生成GRN嵌入;
  2. 启动子嵌入(Promoter embeddings):

    • 每个基因的启动子序列包含2500个碱基;
    • 启动子序列经过DNABert完成40轮次的微调,从而降维到768维度;
  3. 基因家族嵌入(Gene family embeddings):

    • 人类细胞的基因家族数据来自HUGO Gene Nomenclature Committee (HGNC);
    • 小鼠细胞的基因家族数据是依据小鼠细胞和人类细胞的同源基因,并对照HGNC的信息所得到的,而人类和小鼠的同源基因库是来自BioMart数据库;
    • 最终可知:人类细胞中共有1645类基因族,小鼠细胞中共有1539类基因族;
    • 当两个基因位于一个基因族中,我们就认为这两者存在基因族关系,因此我们根据基因和其基因族分类信息构建了一个基因对列表,用于表示这种基因族关系。
    • 使用gene2vec生成维度为768的基因族嵌入;
  4. 共表达嵌入(co-expression embeddings):

    • 共表达信息是为了避免模型对特定细胞类型或表达级别有偏见(缓解类别不平衡问题);
    • 随机挑选3000个细胞,计算3000个细胞中基因的相关性(排除表达量为0的基因);
    • 我们认为PCC大于0.8的基因对存在共表达关系;
    • 使用gene2vec生成维度为768的共表达嵌入;

补充: Pearson correlation coefficient (PCC)的取值范围为 [-1,1],其中PCC等于1,表示完全正相关;PCC等于-1,表示完全负相关;PCC等于0,表示无相关性。

下游任务介绍:

共9个下游任务

  1. Gene embedding analysis:
    • 任务目的:验证GeneCompass是否是一个强有力的GRN推断工具;
    • 数据集:CHIP-Atlas数据库与PBMC-GSE43036数据集,其中CHIP-Atlas数据库提供了不同转录因子与基因的结合信息。在这项研究中,CHIP-Atlas中的数据与PBMC(外周血单核细胞)的基因表达数据结合,来推测转录因子与基因之间的关系。PBMC细胞在GSE43036(一个公开的基因表达数据集)中提供了相关的基因表达数据。
    • in silico删除:是指在计算模型中模拟删除特定的转录因子(TFs);
    • 实现方式:in silico删除,根据剩余的基因嵌入变化情况推断是哪个TFs被删除。通过计算预测的TFs与实际TFs之间的精度来评估评估GRN推断准确性;
    • shift:是指基因嵌入向量的变化量,shift反映了in silico删除之后,相关互作基因的变化程度。
  2. Single-species cell type annotation:
    • 任务目的:验证GeneCompass是否学习到了细胞间的差异;
    • 数据集:human multiple sclerosis,human lung,hunman liver,mouse brain,mouse lung,mouse pancreas;
    • 额外的分类器网络:一个全连接网络加一个交叉熵损失,学习率 5e-5,batch-size 16,finetune epochs 50;
    • 对比模型:geneforner,scgpt,TOSICA;
  3. Cross-species cell type annotation:
    • 任务目的:预测跨物种的细胞类型;
    • 数据集:
    • 预测网络:GeneCompass+CAME网络,这个网络首先构建了一个基因-细胞的异质图网络。同CAME的最本质区别是GeneCompass+CAME中基因节点的初始嵌入是通过GeneCompass获得的,而细胞节点的初始嵌入是通过相关公式获得;
    • 图自注意力层作为细胞分类器,交叉熵损失和Adam优化器。
  4. GRN inference:
    • GRN (Gene Regulatory Network) 推断的过程是通过预测基因之间的相互关系,来揭示基因如何协同工作控制细胞过程;
    • 任务目的:测试在DeepSEM框架的GRN推断中,加入预训练模型生成的基因嵌入是否能帮助基因调控网络推断的更准确;
    • 数据集:Immune Human 数据集,ChIP-seq 数据集;
    • 基因调控网络推断模型:DeepSEM;
    • GRN推断过程:
      1. 使用预训练模型生成Immune Human 数据的基因嵌入,并基于这个基因嵌入计算基因相似性(阈值为0.4,大于0.4认为基因间存在相似关系);
      2. 使用DeepSEM框架生成Immune Human 数据的GRN;
      3. 使用BEELINE生成ChIP-seq 数据标签;
      4. 利用Immune Human数据的基因相似性,以及ChIP-seq 数据标签进一步优化DeepSEM框架生成的GRN;
  5. Drug dose response prediction:
    • 任务目的:Drug dose response prediction 旨在预测不同药物剂量下特定基因(例如 MDM2)的表达变化。
    • 数据集:Srivatsan 等人提供的 Srivatsan, S. R. et al. Massively multiplex chemical transcriptomics at single-cell resolution. Science 367, 45–51 (2020).
      • 其包含细胞的基因表达;
      • 细胞施加的药物剂量;
      • 以及细胞的额外离散特征,例如细胞类型或物种。每个特征是一个向量,可能包含多个类别,使用 one-hot 编码 来表示每个特征。
    • 药物剂量反应预测模型:Compositional Perturbation Autoencoder (CPA);
      • CPA模型预测药物剂量反应的具体步骤:
      • 步骤1:将每个细胞的基因表达转换为一个基线状态;
      • 步骤2:结合基线状态与药物剂量特征嵌入和细胞特征信息特征嵌入相结合,这些嵌入表示了药物剂量和细胞特征对基因表达的潜在影响。
      • 步骤3:使用预训练的基因嵌入模型(如 GeneCompassGeneformerscGPT)来生成基因嵌入。
      • 预测药物剂量反应:将基因嵌入和步骤2获得药物基因关联信息输入到CPA网络中,进行药物剂量反应预测。
  6. Gene expression profiling prediction:
    • 任务目的:预测不同药物剂量、细胞类型和其他生物条件下的基因表达水平。这有助于理解药物或化合物如何影响基因表达,并且能揭示基因网络在不同干扰条件下的反应;
    • 基因表达谱预测模型:DeepCE模型
      • DeepCE 模型包含三个关键组件,分别用于特征提取、交互建模和预测,具体如下:
      • 特征提取模块:由蛋白质-蛋白质互作网络+GCN(图卷积网络)+前馈网络组成;
      • 交互网络模块:帮助模型为不同的特征分配不同的权重,从而更有效地学习到哪些因素对基因表达变化有重要影响。由多头注意力网络组成;
      • 预测模型:两层前馈网络所组成,relu激活函数;
    • 基因表达谱预测过程:
      1. 输入数据:化合物特征,基因表达数据(例如L1000基因集),细胞类型和剂量信息;
      2. 基因嵌入:来自预定义模型(如GeneCompass、Geneformer、scGPT)的基因嵌入被集成到模型中,以便提供额外的基因背景信息。
      3. 特征处理;
      4. 预测;
    • 基因表达谱预测任务通过使用 DeepCE 模型,结合多种生物数据和预训练基因嵌入,提供了一个强大的工具来预测不同药物、剂量和生物条件下基因的表达变化。这种方法在药物研发、疾病研究和精准医疗中具有广泛的应用前景。
  7. Gene dosage sensitivity predictions:
    • 基因剂量敏感性是什么:其指的是基因的表达水平对基因拷贝数变化的响应。如果一个基因的拷贝数增加或减少会显著影响该基因的表达及其功能,则称为剂量敏感的基因。相反,剂量不敏感的基因对拷贝数的变化则表现出较少的响应。基因拷贝详见 juejin.cn/post/744493…
    • 任务目标:区分剂量敏感(dosage-sensitive)和剂量不敏感(dosage-insensitive)的转录因子(TFs)。
    • 基因剂量敏感性预测模型:微调的 GeneCompass 模型;
    • 数据集:10,000个随机单细胞转录组的数据进行微调;
    • 训练过程:参考geneformer;
  8. In silico perturbation:
    • In silico perturbation 是一种利用计算机模拟进行基因扰动研究的技术
    • 任务目标:该方法通过模拟基因的干扰(如敲除或过表达)来预测基因表达的变化。
    • 数据集:Norman36数据集;
    • In silico perturbation 模型:GEARS模型:
      • 通过微调模型来预测一基因和二基因扰动后的表达变化。训练过程设置为 10个epoch,并且使用了基因表达差异最显著的前20个差异表达基因(DEGs)来计算均方误差(MSE) ,作为损失函数。
    • GEARS模型预测过程:
      • 使用共表达图谱网络学习基因嵌入;
      • 将基因嵌入与扰动嵌入(从GO-drived的知识图谱中获得)结合;
      • 预测扰动后的基因表达变化情况;
    • GeneCompass的作用:在这项研究中,作者用 GeneCompass 基因嵌入替换了原有的 GEARS 嵌入。
    • DEGs(差异表达基因):这些是表现出显著表达变化的基因,通常用于评估扰动的效果。
    • 单基因与双基因扰动:该研究特别评估了 单基因扰动双基因扰动 对基因表达的影响。由于大多数基因在未扰动和扰动状态之间不会表现出显著变化,研究选择了表现出显著变化的前20个DEGs作为模型微调的目标。
    • 预测误差评估:在训练过程中,研究通过排除特定条件的数据来评估 GeneCompass 嵌入对模型预测准确性的影响。使用的评估指标是预测值与真实值的绝对差,并选择扰动实验中表现出最大变化的前20个基因,计算其变化的总和,定义为 Top 20 DEGs偏差
    • 模型评估:通过对比不同嵌入(如 GEARS 与 GeneCompass)的效果,研究能够揭示哪种方法能够更好地捕捉基因表达变化,尤其是在模拟基因扰动时的表现。
  9. In silico quantitative perturbation:
    • In silico quantitative perturbation 是一种计算机模拟方法,主要用于模拟细胞重编程和分化过程。在这种方法中,细胞的状态和基因表达通过 细胞嵌入基因嵌入 进行表征。通过在单细胞转录组数据上进行模拟的基因敲除(knockout)和过表达(overexpression),可以研究基因扰动对细胞行为和基因表达的影响。

    • 模拟过程:

      • 基因表达的操作:

        1. 基因敲除(Knockout) :通过减少目标基因的表达,模拟基因敲除效应。这是通过降低目标基因的表达值来实现的。
        2. 基因过表达(Overexpression) :通过增加目标基因的表达值,使其达到一个特定水平,从而模拟基因过表达的效应。
      • 细胞和基因嵌入:扰动状态通过细胞和基因的嵌入表示,GeneCompass模型用于处理这些嵌入,获取扰动后的细胞嵌入。

    • 模拟操作的步骤:

      • 扰动模拟(基因预处理步骤):在将单细胞转录组数据传递给 GeneCompass 模型之前,首先执行基因敲除和过表达操作;
      • 敲除实验的细胞筛选:为了确保敲除实验的有效性,研究者仅选择那些目标基因在原始细胞中表达位于 前50% 的细胞进行敲除操作。这样做是为了确保目标基因具有足够的表达,以便通过敲除改变其表达水平。
      • 重排细胞表达值:在执行完基因敲除或过表达操作后,新的基因表达数据会根据目标基因的表达值进行重新排序,反映扰动后的细胞状态。
      • 构建基因对进行扰动分析:为了避免原始和扰动细胞之间的批次效应,研究者通过随机采样细胞来构建用于扰动分析的基因对。
    • 扰动效应评估:

      • 细胞嵌入计算:通过 GeneCompass 模型,获取扰动后的细胞嵌入(post-perturbation cell embeddings)。这些嵌入表示细胞在扰动后基因表达的变化
      • 扰动效应测量:评估扰动效应的方式是通过计算 扰动后细胞嵌入与真实细胞嵌入 之间的余弦相似度。
    • 扰动效应测量的确存在一个挑战,就是没有真实结果可以直接验证。