生科领域的新数据库:一幅RNA 和蛋白质水平上的单细胞类型人体组织图

238 阅读6分钟

编辑 | 雪松

分子谱分析的进步开辟了绘制人体细胞、组织和器官中基因表达图谱的可能性。在未来,人类基因表达图谱极有可能成为研究人类生物学和疾病的基础。

来自KTH皇家理工学院(KTH Royal Institute of Technology)的研究人员,将单细胞转录组学分析与基于空间抗体的蛋白质分析相结合,创建了高分辨率的人体组织单细胞类型图。

目前,已经发布了一个开放获取图谱。该图谱允许研究人员探索人类蛋白质编码基因在 192 个单个细胞类型簇中的表达。可以进行表达特异性分类,确定每种细胞类型中升高的基因数量,从而可以与大量转录组学数据进行比较。

该研究以「A single–cell type transcriptomics map of human tissues」为题,于2021年7月28日发布在《Science Advances》。

大规模并行测序的显着改进,再加上单细胞样品制备和数据解卷积,使单细胞 RNA 测序 (scRNA-seq) 成为表征单细胞中「基因表达谱」的有力方法。国际合作项目「人类细胞图谱(Human Cell Atlas)」 利用这一新技术平台来研究不同细胞和组织类型在 RNA 水平上的独特基因表达谱,并将这些信息与经典细胞描述联系起来。

同时,数百万公开可用的人类蛋白质抗体的开发,使「免疫组织化学」和「基于荧光的生物成像」对组织和器官中的相应蛋白质进行单细胞分析成为可能,从而允许单细胞分析相邻单元格上下文中的单元格空间映射。

人类蛋白质图谱 (HPA) 的目标是利用这些生物成像方法绘制所有主要人类细胞、组织和器官中所有人类蛋白质编码基因的表达图。HPA 公开提供了来自 37 个组织的超过 1000 万张生物图像,这些图像显示了完整组织样本中的天然蛋白质位置,每个图像均由相关的病理学家进行注释。

因此,这两个平台有可能在 RNA 和蛋白质水平上创建全面的全身基因表达图谱;最终目标是提供公开可用的全基因组知识。

图示:使用单细胞转录学数据注释来自13个组织的51个细胞类型。(来源:论文)

在这里,研究人员将这两项工作的信息结合起来,基于「来自 scRNA-seq 实验的全基因组表达数据」和「空间抗体的生物成像数据」,创建一个公开可用的 HPA 单细胞类型图谱。 这种方法利用来自数百或数千个细胞的累积计数所增加的信息,在全基因组和单细胞类型水平上,使每个簇中每个基因的表达谱可视化。

研究中包括的组织

研究人员对来自未患病人体组织和器官的 scRNA-seq 数据进行了调查。使用三个主要标准将数据纳入分析通道:

  • 来自人体组织的公开可用原始数据,具有良好的技术质量,至少分析了 4000 个细胞,每个组织的测序读数至少为 2000 万;
  • 来自 scRNA-seq 数据的伪批量转录组学特征与作为 HPA 组织图谱的一部分生成的批量 RNA-seq 之间的高度相关性;
  • 簇特异性表达与代表众所周知的组织和细胞类型特异性标记的广泛选择的标记基因的预期表达模式之间的高度相关性,包括来自原始出版物的标记和病理学中使用的其他标记诊断。

在这里,该团队提供了一个包含 13 种不同人体组织的数据集(包括回肠、结肠、直肠、肾脏、肝脏、胰腺、心脏、肺、前列腺、睾丸、胎盘、皮肤和眼睛)以及对人血的分析。所有原始数据集都被收集到一个共同的聚类分析中,从而在整个数据集中产生了总共 192 个单细胞类型的聚类。总的来说,数据对应于 14.7 亿次读取计数,每个单细胞类型簇的平均读取计数约为 770 万次。

192 种细胞类型表达谱的相关性

大量 RNA-seq 和伪大量单细胞转录组学谱之间的相关性对于所有组织都很高,范围从 0.76 到 0.88(图 S2)。所有簇都根据已知的组织和细胞类型特异性标记物及其在相应簇中的预期表达。192 个单细胞类型簇可以概括为 51 个主要细胞类型,属于 12 个不同细胞功能组。

图示:细胞类型树状图显示了基于全基因组表达的所有 51 种主要单细胞类型之间的关系。(来源:论文)

创建单细胞类型图谱

在新数据的基础上,研究人员推出了单细胞类型图谱,其中包含所有蛋白质编码基因的数据。这个开放获取资源中提供了超过 250,000 个交互式 UMAP 图,显示了所有蛋白质编码基因和所有注释细胞类型(定义为注释簇)的每个分析细胞的主要数据。通过汇集集群中每个细胞的数据,已经能够生成超过 250,000 个条形图,显示整个蛋白质编码基因组中每个基因和细胞类型的计算出的每百万转录本 (TPM)。与组织成像的整合,允许通过基于原位抗体的分析,在蛋白质水平上验证细胞类型特异性表达。

图示:人类组织的开放获取单细胞类型转录组学图谱。(来源:论文)

细胞类型特异性表达情况

研究人员对细胞类型富集和组富集基因的数量及其关系进行了分析。该分析突出了,与「同一器官内」和「器官之间」具有相似功能的细胞类型,所对应的不同表达簇。

图示:每种细胞类型的细胞类型和组富集基因的数量。(来源:论文)

除以上列举之外,研究人员还利用图谱数据进行了,基于表达谱的蛋白质编码基因分类、比较组织细胞和单细胞转录组学、评估scRNA-seq 分析与体外培养的人类细胞系转录组学数据的重叠关系等工作。

「……该图谱已成为世界上访问量最大的生物数据库之一。它拥有数百万个网页,其中包含有关所有人类蛋白质编码基因的信息。」人类蛋白质图谱联合会主任Mathias Uhlén说。

论文链接:advances.sciencemag.org/content/7/3…

人类细胞图谱:www.humancellatlas.org

人类蛋白质图谱:www.proteinatlas.org/

相关报道:phys.org/news/2021-0…