来自耶鲁大学、Google Research及Google DeepMind的团队,基于Cell2Sentence(C2S)框架开发出C2S-Scale模型家族,该模型训练于包含超10亿token的多模态(涵盖5000多万个人类/小鼠单细胞转录组等数据),参数规模达270亿(覆盖4.1亿-270亿多档位)。通过“细胞句子”(基因按表达量排序转换的文本)实现单细胞数据与LLM的适配,结合Group Relative Policy Optimization(GRPO)强化学习优化,C2S-Scale在干扰响应预测、单细胞自然语言解读(分群描述、数据集摘要)、空间niche预测等任务上,超越scGPT、Geneformer等专业单细胞模型及GPT-4o、Gemini等通用LLM;同时提出单细胞Fréchet Inception Distance(scFID)** 评估指标,并开源代码**与模型权重,为“虚拟细胞”开发及下一代单细胞分析奠定基础。
研究背景
- 技术基础:单细胞RNA测序(scRNA-seq) 革新了细胞异质性研究,已生成CellxGene、人类细胞图谱等大规模数据集,但现有单细胞基础模型(scFMs) (如scGPT、Geneformer)存在关键局限:
-
- 可扩展性弱:定制架构难以支撑大规模参数(多为亿级以下);
- 多任务灵活性差:专注单一任务(如细胞嵌入),无法兼顾预测/生成/文本解读;
- 文本整合能力不足:无法原生结合生物文献、基础数据等文本信息。
- 解决方案:大语言模型(LLM) 在NLP中表现出稳健的性能缩放性**(随参数增加多任务表现提升)、海量语言处理能力及强泛化性,而Cell2Sentence(C2S)框架通过将单细胞数据转为“细胞句子”,为LLM处理单细胞数据提供了路径,研究团队在此基础上开发C2S-Scale。
C2S-Scale的核心设计与训练体系
1 数据转换:Cell2Sentence机制
- 核心逻辑:将单细胞RNA-seq表达向量按基因表达量降序排序,取Top高表达基因,拼接为“细胞句子”(如“GeneB GeneD GeneG GeneA ...”);
- 信息保真:基因排序与原始表达量在log空间呈强线性关系,线性模型拟合后,转换可逆且信息损失极小。
2 模型架构与参数规模
3 训练数据与任务设置
- 训练语句:超10亿token的多模态 corpus,包含:
-
- 5000多万个人类/小鼠单细胞转录组数据(来自CellxGene、人类细胞图谱);
- 关联数据(细胞类型、组织、疾病状态、供体信息);
- 文本数据(论文摘要、基因集描述、CellPhoneDB/BioGRID互作数据);
- 生成1.5亿个多任务训练样本。
4 训练流程与优化
- 两阶段训练:
-
- 自监督预训练:以“下一个token预测”为目标,学习细胞句子与生物文本的关联;
- 任务微调:采用LoRA(低秩适应) 实现参数高效优化(仅微调部分参数,降低计算成本);
- 强化学习优化:引入Group Relative Policy Optimization(GRPO) ,以BioBERTScore(语义相似度)、scFID(生成质量)等生物领域指标为奖励,提升模型在干扰预测、scQA等任务的准确性。