摘要
生物分子的定向进化是一个迭代过程。尽管语言模型的进步加速了蛋白质进化,但有效进化RNA仍然是一个挑战。本文介绍了GRAPE-LM(活性引导进化和语言模型驱动的RNA适配体生成器),一个专为RNA适配体单轮进化设计的生成式人工智能框架。GRAPE-LM集成了基于Transformer的条件自编码器与核酸语言模型,并由源自细胞内环境的基于CRISPR-Cas的适配体筛选数据引导。研究在三个不同靶标上验证了GRAPE-LM:人T细胞受体CD3ε、SARS-CoV-2刺突蛋白的受体结合域以及人致癌转录因子c-Myc(一种胞内无序蛋白)。仅凭单轮基于CRISPR-Cas的筛选数据,GRAPE-LM成功获得了性能超越多轮人工筛选和优化的RNA适配体。
引言
生物分子的定向进化是一个迭代过程。尽管语言模型的进步加速了蛋白质进化,但有效进化RNA仍然是一个挑战。RNA适配体,因其结合特性而被筛选出来,为解决这一挑战提供了一个理想系统。然而,传统的适配体发现仍然依赖于劳动密集型、多轮次的筛选。在此,我们介绍GRAPE-LM(活性引导进化和语言模型驱动的RNA适配体生成器),一个专为RNA适配体单轮进化设计的生成式人工智能框架。GRAPE-LM集成了基于Transformer的条件自编码器与核酸语言模型,并由源自细胞内环境的基于CRISPR-Cas的适配体筛选数据引导。我们在三个不同的靶标上验证了GRAPE-LM:人T细胞受体CD3ε、SARS-CoV-2刺突蛋白的受体结合域(RBD)以及人致癌转录因子c-Myc(一种胞内无序蛋白)。仅凭单轮基于CRISPR-Cas的筛选数据,GRAPE-LM成功获得了性能超越多轮人工筛选和优化的RNA适配体。
图1:GRAPE-LM框架示意图及计算结果。
结果
GRAPE-LM框架概述
GRAPE-LM 是一种生成式人工智能框架,其核心在于将基于Transformer的条件自编码器与核酸语言模型相结合。该框架利用基于CRISPR-Cas的适配体筛选数据(称为CRISmers)作为活性引导信号。这些数据源自细胞内环境,提供了适配体序列及其对应的富集分数(作为伪活性分数)。通过将这些数据用于训练,GRAPE-LM能够学习序列与功能之间的关系,从而在一个结构化的“活性引导潜在空间”中生成新的、具有潜在更高活性的适配体序列,这与传统仅基于序列相似性的方法有本质区别。
扩展数据图1:两种潜在空间及数据处理的比较。 (a) 活性引导与基于序列相似性的语义空间的比较。活性引导的潜在空间(由伪活性分数约束)能够聚焦于功能性适配体的采样,而传统的基于序列相似性的空间仅允许随机探索。 (b) 数据处理流程。训练和测试数据集来源于CRISmers(一种基于胞内CRISPR/Cas的适配体筛选系统)的首轮输出结果。根据富集频率为独特序列分配伪活性分数(0-1范围)。使用CD-HIT以0.8的阈值对序列进行聚类。仅使用高置信度的序列(读取数超过10条的聚类或读取数超过5条的单独独特序列)。对于初始序列较少的靶标(如RBD),单独独特序列的阈值设为1。最终筛选出的序列按8:2的比例随机分为训练组和测试组,用于构建训练集和测试集。
活性引导策略的作用
为了评估活性引导模块对潜在空间组织的调控作用,我们分析了改变活性引导损失权重对高活性与低活性样本分离程度的影响。使用t-SNE方法将GRAPE-LM编码器生成的高维潜在特征映射到二维空间,以便于根据功能相似性对生成的适配体进行聚类分析。结果表明,适当的活性引导权重能够有效地将高活性与低活性序列在潜在空间中分离开来。
扩展数据图2:探索活性引导策略的作用。
GRAPE-LM的计算性能
我们将GRAPE-LM与现有的RNA适配体生成模型RaptGen在“恢复率”指标上进行了比较。恢复率衡量模型生成的序列与测试集中高活性序列的相似程度。针对来自CRISmers和SELEX的多个靶标数据集的测试结果显示,GRAPE-LM的恢复率显著高于RaptGen,表明其能更有效地从首轮筛选数据中学习并生成功能性候选序列。
扩展数据图3:GRAPE-LM与RaptGen在恢复率方面的比较结果。 总体恢复率使用相应模型在来自CRISmers (a) 和 SELEX (b) 的四个靶标的测试集上计算。数据以平均值±标准差表示,n=3个实验重复。统计分析采用双尾学生t检验(**** P < 0.0001)。
靶向CD3ε适配体的实验验证
针对人T细胞受体CD3ε,GRAPE-LM基于单轮CRISmers筛选数据生成的候选适配体,在细胞水平上表现出优异的结合亲和力。通过流式细胞术测定的解离常数(Kd)表明,GRAPE-LM生成的适配体(如Lead-1和Lead-2)的亲和力显著优于经过多轮传统SELEX筛选及优化的适配体(如先前报道的HBS和V5)。此外,基于报告基因的细胞 assay 也证实,GRAPE-LM生成的文库在激活T细胞信号方面的能力远强于仅经过一轮CRISmers筛选的原始文库。
图3:针对CD3ε的GRAPE-LM衍生适配体先导物的性能基准测试。
扩展数据图4:Cy5标记的CD3ε适配体的剂量依赖性流式细胞术分析。 (a) 代表性的流式细胞术直方图,显示在用系列稀释的Cy5-适配体处理后,CD3ε-Ko #2细胞中的荧光强度偏移。 (b) Cy5标记的CD3ε适配体在Jurkat细胞上的剂量反应结合曲线。CD3ε敲除细胞作为阴性对照以评估结合特异性。表观平衡解离常数(Kd)通过非线性回归分析得出。数据代表平均值±标准差(n=3个生物学重复)。
扩展数据图5:CD3ε适配体结合亲和力的表征。 (a) 来自一轮CRISmers筛选的前50个候选序列(按测序读取丰度排序)的荧光素酶报告基因测定结果。数据代表平均值±标准差,n=3个生物学重复。 (b) 使用CRISmers与GRAPE-LM进行一轮筛选后所得文库的比较GFP报告基因测定。“Mock”表示转染无关对照质粒;“CRISmers”表示转染经过一轮CRISmers筛选后构建的亚文库;“GRAPE-LM”表示转染由GRAPE-LM在单轮中生成的文库。
靶向SARS-CoV-2 RBD和c-Myc适配体的验证
GRAPE-LM的成功进一步在SARS-CoV-2刺突蛋白RBD和胞内蛋白c-Myc上得到验证。对于RBD,GRAPE-LM生成的适配体表现出与经过多轮筛选和化学修饰的适配体相当甚至更高的结合亲和力,并能有效阻断RBD与ACE2受体的结合。对于被称为“不可成药”靶点的c-Myc,GRAPE-LM同样成功生成了高亲和力的RNA适配体,证明了该框架在应对不同靶标(包括复杂胞内蛋白)时的通用性和强大能力。
图4:针对RBD的GRAPE-LM衍生适配体先导物的验证。
图5:针对人c-Myc的GRAPE-LM评估。
扩展数据图6:微量热泳动检测及RBD的其它结果。 (a) 微量热泳动(MST)原理示意图。 (b) 先前报道的靶向SARS-CoV-2刺突蛋白RBD的SELEX衍生适配体的MST结合曲线。数据显示平均值±标准差,n=3个生物学重复。 (c) 基于MST对来自迭代CRISmers的第二轮先导物和第五轮先导物进行Kd值测定的结果。数据显示平均值±标准差,n=3个生物学重复。在MST检测中,使用S2亚基作为阴性对照以确保结合特异性。
结构基序分析
对GRAPE-LM生成的代表性适配体进行二级结构预测和结合位点分析,发现其内部环状结构可能是关键的结合 motif。例如,靶向CD3ε和RBD的适配体均在内部环区域预测出结合位点,并且包含这些 motif 的截短序列仍能保持与靶标的结合能力,进一步证明了GRAPE-LM能够学习并生成具有功能结构特征的序列。
扩展数据图7:两个代表性适配体中内部环基序的案例研究。 代表性CD3ε (a) 和 RBD (b) 适配体的二级结构预测及预测结合位点的功能分析。虚线框突出显示了计算预测的内部环中的结合位点。数据代表平均值±标准差(n=3个生物学重复)。
讨论
本研究展示了GRAPE-LM作为一种强大的生成式人工智能工具,能够将RNA适配体的发现从传统的多轮、劳动密集型筛选转变为由数据驱动的单轮进化。通过整合基于CRISPR-Cas的胞内筛选数据与先进的语言模型,GRAPE-LM构建了一个活性引导的潜在空间,使其能够高效探索序列空间并生成高亲和力的适配体。GRAPE-LM在三个截然不同的靶标上的成功验证,凸显了其在生物技术、诊断和治疗领域的广泛应用潜力。这一新范式有望加速功能性RNA分子的开发进程。
扩展数据图8:加速RNA适配体进化的强大新范式。 这项工作中引入的GRAPE-LM,结合一轮CRISmers筛选数据,实现了单轮进化,从而催生了这一新范式。
数据与代码可用性
数据可用性 来自初筛和混合检验的CRISmers测序数据可在Zenodo获取:https://zenodo.org/records/18050896 和 https://doi.org/10.5281/zenodo.18005327。GRAPE-LM使用的最小数据集和模型检查点可在GitHub获取:https://github.com/tansaox2008123/GRAPE-LM。论文附有源数据。
代码可用性 GRAPE-LM的源代码可在 https://github.com/tansaox2008123/GRAPE-LM 获取。通过GRAPE-LM在线平台(https://grape-lm.bioailab.net/),研究人员可以轻松检索为本出版物中三个特定分子靶标设计的适配体序列。FINISHED