单细胞--细胞轨迹分析(基础知识)

1,608 阅读8分钟

参考:

玩转单细胞高级分析 | 细胞轨迹分析篇

# 拟时序分析是什么?怎么看?如何用?

# RNA速率:细胞内部的指南针

常见的单细胞轨迹研究方法包括拟时序分析RNA 速率分析(RNA velocity) 等,广泛应用于

  • 发育研究
  • 干细胞分化
  • 肿瘤微环境免疫细胞的动态变化研究(包括其他具有大量免疫细胞的疾病) 只有细胞本身存在随时间变化的特性,才可以做拟时序分析

Monocle [1] 是用于 scRNA-seq 拟时序分析的经典工具,其是使用算法来学习细胞状态转变过程中每个细胞必须经历的基因表达变化序列,一旦了解了基因表达变化的整体“轨迹”,Monocle 就可以将每个细胞放置在轨迹中的适当位置

1. 拟时序分析--分析现有变化

关键结果解读

1、细胞轨迹构建

当 Monocle 对单细胞进行排序时,能够轻松地进行可视化和解释。如下图为对细胞排序后在二维空间中的轨迹。横纵坐标分别为两个主成分,图中每个圆点代表一个细胞,图中黑色的圈内的数字代表轨迹分析中确定不同细胞状态的节点。左图不同颜色代表了不同细胞 Cluster ,右图其中颜色由深到浅为拟时间的顺序。(注意计算机没法判断真实的起始点,要通过生物学意义去确定起始点)

图1:细胞轨迹构建 [2]

2、差异基因分析

Monocle 通过 differentialGeneTest 函数按照拟时间值找到差异表达的基因。时间序列基因表达研究时出现的一个常见问题是:“哪些基因遵循相似的动力学趋势”?Monocle 通过将具有相似趋势的基因分类来解决这个问题。本分析选取差异最显著的 100 个基因,将这些基因聚类可视化,可以观察在 拟时间过程中各个表达基因模块的变化。如下图横坐标为拟时间顺序,纵坐标每行代表一个基因,每列代表当前细胞状态下的平均表达值,颜色按照由红到蓝逐渐降低。

图2:差异基因分析 [2]

3、分支点分析

单细胞拟时间分析结果中,存在数个分支点,这些分支节点的发生代表着细胞产生了程序性的变化,如细胞命运分化。因此对分支事件分析有着重要意义。Monocle 用 BEAM(Branched Expression Analysis Modeling)方法对拟时间排序后的细胞数据以及指定的节点进行分析,进而发现与分支相关的差异基因,可重点关注这些 Marker 基因的变化影响。如下图图中顶部为拟时间顺序中节点分支如 Cell fate1/Cell fate2,每行代表一个基因,每列为拟时间点,颜色代表当前时间点该基因的平均表达值,颜色按照由红到蓝逐渐降低。

图3:指定分支点分析 [2]

4、指定基因可视化

差异最显著的基因(可指定)按拟时间过程起始到终止的基因表达变化。

图4:指定基因可视化 [2]

另外针对分支点分析可对感兴趣的基因进行如下图所示方法进行可视化。

图5:指定基因可视化 [3]

应用案例

案例一:

Single-Cell RNA-Seq Reveals Dynamic Early Embryonic-like Programs during Chemical Reprogramming

【发表期刊】 Cell Stem Cell

【影响因子】 20.86

【发表时间】 2018 年5月

主要结论:本研究利用 10x Genomics 单细胞转录组测序研究体细胞化学诱导重编程过程。该研究结合生物信息学方法,对早期胚胎细胞群体进行细胞重编程轨迹构建。 并且通过识别相关的分子事件,揭示了早期胚胎动态重编程过程,鉴定到从 XEN-like 重编程到多能性状态的的关键因素,包括伴随的两细胞(2C)胚胎样转录特征、早期多能性程序的转录特征和显著的基因组 DNA 去甲基化的表观遗传学标签。

案例二:

Single-cell RNA sequencing demonstrates the molecular and cellular reprogramming of metastatic lung adenocarcinoma

【发表期刊】 Nature Communications

【影响因子】 12.121

【发表时间】 2020年5月

主要结论:文章作者描述了肺腺癌从早期到晚期的细胞动态变化,对原发灶和转移灶的细胞和分子特征进行分析,揭示了肺腺癌进展过程中肿瘤微环境的改变。将单细胞的研究放在了细胞异质性和动态变化的场景中。对肿瘤组织的上皮细胞通过细胞轨迹分析, 发现了上皮细胞的三种分化状态:S1,S2,S3。其中 S3 以正常组织的纤毛细胞为主。S1 和 S3 失调的基因参与了上皮表面活性物质的稳态、肺泡发育以及纤毛运动,说明 S1 和 S3 状态代表了正常分化程序的失调。而 S2 以肿瘤组织中的恶性细胞为主,S2 特异性表达的基因与侵袭性细胞运动和异常增殖或凋亡有关。

案例三:

Single-cell RNA-seq highlights intra-tumoral heterogeneity and malignant progression in pancreatic ductal adenocarcinoma

【发表期刊】 Cell Research

【影响因子】 20.507

【发表时间】 2019年9月

主要结论:研究团队通过对24例术前未经放化疗的人胰腺癌组织进行单细胞转录组分析,绘制了大样本人胰腺导管腺癌细胞图谱。首先,通过 T-SNE 分析鉴定出胰腺癌组织中10类细胞:I型导管细胞、II型导管细胞、腺泡细胞、内分泌细胞、内皮细胞、成纤维细胞、星型细胞、巨噬细胞、T 细胞和 B 细胞。通过 CNV 结合差异分析和功能富集,鉴定II型导管细胞是胰腺癌组织的恶性细胞。其次,利用轨迹分析研究了 PDAC 从癌前状态到恶性状态的基因表达模式, 发现在 PDAC 进展过程中,包括 ErbB 和 Notch 信号通路在内的多个经典致癌通路被激活。特别是在肿瘤进展的晚期,细胞增殖和迁移的相关基因被显着激活。

参考文献:

[1]. Qiu, Xiaojie, etal. "Reversed graph embedding resolves complex single-cell trajectories." Nature Methods 14.10 (2017): 979-982.

[2]. Huang Jingrui, LiQi, Peng Qiaozhen et al. Single-cell RNA sequencing reveals heterogeneity and differential expression of decidual tissues during the peripartum period. Cell Prolif, 2021, 54: e12967.

[3]. Alshetaiwi, Hamad, et al. “Defining the emergence of myeloid-derived suppressor cells in breast cancer using single-cell transcriptomics." Science immunology 5.44 (2020).

2. RNA 速率分析--分析未来可能的变化

RNA速率(RNA Velocity)定义: RNA速率指的是基因表达状态相对于时间的导数,或者说是已剪接mRNA(Spliced mRNA)和未剪接mRNA(Unspliced mRNA)的含量相对于时间的变化速率。RNA速率为正值,表示该基因正在被上调,也就是目前有大量的未剪接的mRNA;相反,RNA速率为负值,表示该基因正在被下调。 意义: RNA速率可用于预测细胞未来的表达状态研究细胞动态(Dynamics),构造细胞分化轨迹,估计转录、剪接和降解的速率以及对不同的细胞动力学机制(Kinetics Regime)进行分类。

mRNA可以通过剪接(spliced)和未剪接(unspliced)转录本来区分。虽然剪接转录本是大多数scRNA-seq实验的主要读数,但也检测了未剪接转录本的表达。使用这些额外的信息,我们可以建立一个简单的数学模型来预测未来的剪接表达。

image.png

image.png 其中u是未剪接的mRNA分子数,s是剪接后的 mRNA 分子数,α是转录速率,β是未剪接到剪接的剪接速率,γ是剪接后mRNA产物的降解速率。
绝大多数情形下的RNA-seq实验所测得的由转录本片段数所代表的基因表达量实际上仅是基因转录RNA剪接RNA降解等一系列胞内化学反应达到稳态时的RNA分子总丰度。

根据给定细胞的特定基因的未来mRNA表达与当前mRNA之间的差异,我们可以推导出基因表达变化的度量。这些可以针对给定细胞的所有基因进行聚合,以创建细胞未来转录组的向量,代表所述细胞变化的速度和方向——因此称为 RNA 速率。一种常见的可视化方法是将向量场叠加到嵌入图中的细胞上,如下所示:

image.png

image.png image.png

在PCA图中神经发育过程的细胞RNA 速率来自 La Manno 等人,Nature 560:494–498(2018)

这是经历神经发育的细胞的PCA图 - 大脑中神经元(红色)由称为径向神经胶质(蓝色)的干细胞样细胞产生。每个点代表一个细胞,上面叠加了一个 RNA 速率向量,预测细胞转变。注意这些箭头为何在中间阶段(神经母细胞和未成熟神经元)变长——这表明基因表达的动态变化,因为神经元的基因被打开,而径向神经胶质细胞的基因被关闭。随着这些细胞成功转变为神经元,箭头迅速缩短,反映了这些细胞基因表达的“减速”。你可以将这些箭头视为类似于细胞的指南针:一个内部的GPS,可以确定细胞想要成为神经元时需要去的方向。