C2S-Scale的下游任务

34 阅读8分钟

1 细胞类型注释

基于“细胞句子”预测单细胞的类型标签(如“CD8+T细胞”“巨噬细胞”),验证模型对传统单细胞分析任务的适配性。

  • 数据与划分:使用两类标注数据集——免疫组织数据集和肺组织数据集,按8:2比例划分训练集(80%细胞)与测试集(20%细胞);
  • 输入输出格式:输入为“细胞句子+自然语言指令”(如“Predict the cell type of this cell: GeneB GeneD GeneG ...”),输出为自然语言格式的细胞类型标签;
  • 训练与对比:C2S-Scale沿用预训练阶段的“next-token prediction”目标进行微调;其他单细胞基础模型(scFMs)则按各自推荐策略,在预训练Transformer权重上叠加预测头训练;
  • 核心价值:无需定制特征提取模块,直接通过文本交互完成传统单细胞任务,为非计算领域研究者提供便捷工具。

2 细胞生成

按条件(或无条件)生成符合生物逻辑的“细胞句子”,模拟特定细胞状态(如“胰腺B细胞”“IFN-γ处理后的T细胞”),为“虚拟细胞”研究提供基础。

  • 数据基础:基于免疫组织和肺组织数据集,聚焦“细胞类型、组织、干扰条件”等核心维度的生成任务;
  • 生成模式
    • 无条件生成:输入无额外信息,模型直接生成随机但符合生物特征的细胞句子;
    • 条件生成:输入含自然语言描述的条件(如“Generate a list of 1000 genes in order of descending expression which represent a Homo sapiens cell of cell type B cell”),模型生成符合该条件的细胞句子;
  • 输出要求:生成的“细胞句子”需包含K个基因(按表达量降序排列),且基因组合需匹配目标细胞的典型表达模式(如B细胞需包含CD19、CD20等标志物)。

3 细胞嵌入

将“细胞句子”映射为低维向量(嵌入向量),捕捉单细胞的转录组特征与上下文信息,支持后续聚类、相似性搜索等任务。

  • 嵌入提取方式:使用预训练完成的C2S-Scale模型(如1B参数版本),无需数据集特异性微调;输入“细胞句子+任务指令”(与细胞类型注释的输入格式一致),不进行token预测,而是提取模型最后一层Transformer的隐藏状态,通过平均池化得到最终的细胞嵌入向量;
  • 多场景适配性:支持“单细胞输入”“多细胞输入”“含基础数据的输入”(如“细胞句子+‘肺组织’标签”),嵌入向量可同时编码转录组信息与上下文(如组织、疾病状态);
  • 核心优势:相比传统单细胞嵌入方法(如PCA、t-SNE),可原生融合文本信息,嵌入结果更具生物解释性。

4 单细胞与bulk数据整合

验证模型对“单细胞- bulk数据”跨模态的整合能力,衡量其捕捉不同分辨率转录组数据关联的能力。

  • 数据构建:基于肺组织单细胞数据集,通过“按供体、细胞类型、批次聚合”构建伪bulk(pseudo-bulk)样本;为每个伪bulk样本随机匹配10个同条件的单细胞样本,形成“单细胞-伪bulk”配对;
  • 嵌入与评估:使用各模型分别对单细胞和伪bulk样本生成嵌入向量,计算配对样本的余弦相似度;采用“FOSCTTM(fraction of samples closer than the true match)”评估——FOSCTTM=0代表“配对样本相似度高于所有其他样本”(完美匹配),FOSCTTM≈0.5代表“随机匹配”;
  • 核心发现:C2S-Scale的FOSCTTM最低(<0.3),证明其即使未在bulk数据上预训练,仍能捕捉单细胞与bulk数据的生物学关联,优于scGPT、Geneformer等模型、。

5 分群描述

为单细胞分群(来自同一组织、批次的细胞组)生成生物意义明确的自然语言描述(如“该分群为肺组织中的肺泡上皮细胞,高表达SFTPA1、SFTPA2基因”),验证模型对“多细胞聚合信息”的文本解读能力。

  • 数据集构建
    1. 基础数据:选取30个scRNA-seq数据集,经预处理、聚类、差异表达分析后,得到345个 distinct 细胞分群;
    2. 标签生成:使用GPT-4o,基于“分群细胞类型、组织、物种、疾病、Top3差异表达基因、关联论文全文”,为每个分群生成5个自然语言描述(caption),最终形成1723个caption的训练数据集;
  • 训练方式:输入为“分群中随机采样的2个细胞句子”,输出为该分群的1个caption;采用“next-token prediction”目标微调,学习率1×10⁻⁵,权重衰减0.01,batch size=64;
  • 评估逻辑:在“未见过的分群”测试集上,用BioBERTScore量化“模型生成caption与GPT-4o生成的参考caption”的语义相似度,分数越高代表描述越准确。

6 数据集解读

基于数据集中的多细胞样本,生成类似生物论文摘要的文本总结(涵盖“主导细胞类型、组织、疾病状态、核心发现”),验证模型对“大规模单细胞数据集”的全局解读能力

  • 测试集划分:设计两类测试集以验证泛化性:
    1. 训练分布内测试集:从C2S-Scale训练语料(CellxGene的613个数据集)中选取“未参与训练的验证/测试样本”,共3065个样本(每个数据集5个样本);
    2. 分布外(OOD)测试集:选取2个“未纳入训练语句”的新数据集——胰腺组织数据集和人类视网膜数据集,各构建200个样本;
  • 样本与标签构建
    1. 输入:从同一组织、供体的数据集中共采样5-20个细胞句子,搭配指令“生成该数据集的生物摘要”;
    2. 参考标签:以数据集关联论文的摘要为基础,用GPT-3.5-Turbo-1106生成500个变体,避免模型“记忆固定摘要”;

7 空间Niche预测

基于单细胞转录组数据预测细胞的空间位置关联(如“是否来自同一niche”“niche标签”),验证模型对“多细胞空间上下文”的学习能力。

  • 数据基础:使用CosMx Spatial Molecular Imager人类肝脏数据集,含正常/肝癌组织的空间分辨单细胞数据(80万个细胞,1000个 curated 基因),按空间坐标划分训练/测试集(避免空间泄露);
  • Niche定义:将“半径0.02像素(约20μm)范围内的细胞”定义为一个niche,匹配模型8192 tokens的上下文长度;
  • 训练任务设计:设计4类子任务联合优化空间理解:
    1. Niche标签预测:输入单个细胞句子→输出其niche标签;
    2. 条件邻居生成:输入niche内多个细胞句子→生成同niche的新细胞句子;
    3. 空间niche预测:输入多个细胞句子→判断是否来自同一niche;
    4. 同niche预测:输入多个细胞句子→判断是否具有相同niche标签;

image.png

8 单细胞问答(scQA)性能

  • 基于2000个scQA对(含单细胞数据、生物背景、问题、答案)训练,经GRPO优化后:
    • BioBERTScore超SFT基线12%,超GPT-4o 8%;
    • 能结合基因表达数据(如GAD1/GAD2)与生物知识(GABA合成)生成解释性答案(如判断抑制性神经元)。

image.png

模型推理

Unconditional cell generation

  • 不指定任何生物约束(如细胞类型、组织),让模型自主生成符合生物学逻辑的“细胞句子”(基因序列)。
  • 输入(Prompt) :简洁的指令性文本,例如:
    “Rank the top 100 genes by expression level found in a cell”
    (“按细胞中基因的表达水平,排序前100个基因”)
  • 输出:一串无重复、生物学有效的基因名称序列,例如:
    “IGLV2-14 IGHV4-4 MT-ATP6 FTL HSPA8 FKBP11 ZFP36 HSPH1 HSIGPL2 JSGTDOS ...”
  • 验证模型是否掌握了“基因表达排序的生物学规律”——生成的基因序列需符合“高表达基因在前、低表达基因在后”的内在逻辑。

Conditional cell generation

  • 根据指定的生物约束(如细胞类型、组织、疾病背景),生成针对性的“细胞句子”,支持特定场景下的细胞数据模拟(如罕见细胞类型生成、干预后的细胞状态预测)。
  • 输入:包含明确生物语境的指令,例如:
    “Cells in PBMC by decreasing levels”
    (“外周血单个核细胞(PBMC)中的细胞,按表达水平递减排序”)
  • 输出:符合该生物约束的基因序列,例如:
    “IGHV3-7 MALATI MT-CO2 THSANGU 7OAOSO MT-ND4L DNAJB1 UBC MTRNR2L12 ACTB ...”
  • 体现模型对“生物语境-基因表达”关联的理解——例如为“PBMC细胞**”生成的基因序列,需与该细胞类型的特征基因表达模式一致。

Cell type prediction

  • 输入已有的“细胞句子”(基因序列),让模型以自然语言的形式输出该细胞的类型,实现“细胞数据→自然语言解读”的反向转换。
  • 输入:基因序列+引导性指令,例如:
    “HSP90B1 GKV3-20 RPLP1 MT-CYB B2M ... The expected cell type based on these genes is”
    (“基于这些基因,预期的细胞类型是”)
  • 输出:自然语言形式的细胞类型标签,例如:
    “macrophage” (“巨噬细胞”)
  • 关键意义:区别于传统的细胞分类模型(需专门设计分类头),该任务直接利用LLM的自回归生成能力完成“基因序列→细胞类型”的映射,且输出为可理解的自然语言。

image.png