TCGAplot在线版:输入基因,一键绘制TCGA泛癌肿瘤vs正常box图

386 阅读5分钟

1, TCGA 简介

TCGA(The Cancer Genome Atlas)收集了大量癌症样本的数据,涉及33种不同癌症、超过 20000个样本,包括外显子组测序、RNA 测序、microRNA 测序、拷贝数变异、蛋白质组和甲基化组,临床信息等数据,研究者可以利用各种生物信息学工具和统计方法来挖掘数据中的有用信息,推动癌症研究的进展。****

2, TCGAplot 简介

华科同济医院的王雄老师课题组利用TCGA数据库,开发了一个TCGA多组学数据泛癌分析和可视化R包TCGAplot[1]。用于泛癌表达以及基因表达与 TMB、MSI、TIME 和启动子甲基化之间相关性等分析。   fig1.png

该包整合了配对和未配对的TPM矩阵,Meta、TMB、MSI、启动子甲基化、免疫细胞比率和免疫评分等数据,极大地方便了我们进行泛癌分析,堪称泛癌分析的“神器”。

3, 一键在线泛癌肿瘤vs 正常box

然而,由于R包安装与使用需要相关专业知识,受众有限。为了更好地帮助大家挖掘TCGA,我们与王老师沟通后,决定将TCGAplot R包的强大功能逐步做成在线版供大家免费使用。

今天,给大家带来的第一个函数:某个基因在肿瘤和正常样品中的表达box图。

3.1 打开作图URL

www.bioinformatics.com.cn/plot_tcgapl…

fig2.png   3.2 填写感兴趣的基因,选择参数并提交

将感兴趣的基因symbol粘贴到输入框,由于基因名会更新(见:坑你没商量的微信公众号文章),所以提交的基因symbol必需在所提供的genelist里边。例如这里填写基因KLF7,即Kruppel-like factor 7,它是一种转录因子,在生物体内各组织中广泛表达,并参与调控细胞的增殖、分化、再生以及肿瘤发生等重要的生理功能。

我们提供了肿瘤组的颜色和正常组的颜色,legend的位置,统计方法,字体等参数供大家选择使用。选择好参数后,点击提交按钮。

fig3.png   3.3 下载图片及数据

由于需要从上万个样品中调取数据并绘图,约30秒后,会出来box图和对应的数据。我们提供了pdf、svg两种矢量图,png、tiff两种标量图供大家下载使用。同时也提供了图片对应的数据供下载。   fig4.png

图片说明:

X轴是33种癌症,按照字母顺序排列。Y轴为log2(TPM+1)表达值。图中红色表示癌症,绿色表示正常。若某癌种没有正常样品则仅显示肿瘤样品(例如ACC)。图片最上面的一排星号表示显著性水平:*表示p<0.05, **表示p<0.01, ***表示p<0.001, ****表示p<0.0001。  

缩写英文名中文翻译
ACCAdrenocortical carcinoma肾上腺皮质癌
BLCABladder Urothelial Carcinoma膀胱尿路上皮癌
BRCABreast invasive carcinoma乳腺浸润癌
CESCCervical squamous cell carcinoma and endocervical adenocarcinoma宫颈鳞癌和腺癌
CHOLCholangiocarcinoma胆管癌
COADColon adenocarcinoma结肠癌
DLBCLymphoid Neoplasm Diffuse Large B-cell Lymphoma弥漫性大B细胞淋巴瘤
ESCAEsophageal carcinoma食管癌
GBMGlioblastoma multiforme多形成性胶质细胞瘤
HNSCHead and Neck squamous cell carcinoma头颈鳞状细胞癌
KICHKidney Chromophobe肾嫌色细胞癌
KIRCKidney renal clear cell carcinoma肾透明细胞癌
KIRPKidney renal papillary cell carcinoma肾乳头状细胞癌
LAMLAcute Myeloid Leukemia急性髓细胞样白血病
LGGBrain Lower Grade Glioma脑低级别胶质瘤
LIHCLiver hepatocellular carcinoma肝细胞肝癌
LUADLung adenocarcinoma肺腺癌
LUSCLung squamous cell carcinoma肺鳞癌
MESOMesothelioma间皮瘤
OVOvarian serous cystadenocarcinoma卵巢浆液性囊腺癌
PAADPancreatic adenocarcinoma胰腺癌
PCPGPheochromocytoma and Paraganglioma嗜铬细胞瘤和副神经节瘤
PRADProstate adenocarcinoma前列腺癌
READRectum adenocarcinoma直肠腺癌
SARCSarcoma肉瘤
SKCMSkin Cutaneous Melanoma皮肤黑色素瘤
STADStomach adenocarcinoma胃癌
TGCTTesticular Germ Cell Tumors睾丸癌
THCAThyroid carcinoma甲状腺癌
THYMThymoma胸腺癌
UCECUterine Corpus Endometrial Carcinoma子宫内膜癌
UCSUterine Carcinosarcoma子宫肉瘤
UVMUveal Melanoma葡萄膜黑色素瘤

数据说明:

fig5.png

数据包括4 列:

Caseid:TCGA数据库的ID,由-分割,其中最后一个为01-09的是癌症样品,其他数字为正常样品

Cancer:肿瘤类型

Group:癌症或正常

KLF7:该基因的log2(TPM+1)值,由于存储空间及精度原因,这里仅保留了2位小数。

与其他数据库相比,TCGAplot数据库使用的数据是比较新的,在日常工作中,可以快速查看某基因在癌症中的表达情况。例如比较下NOP2基因在gepia2[2]和TCGAplot上的表达值,并通过人工下载TCGA数据,我们发现gepia2的肿瘤数据针对这个基因似乎有一定的偏差,gepia2的LAML肿瘤样品表达中位值约5.8,TCGAplot和我们自己下载的数据算出来的都约是1.7的样子,差异明显。然而针对FUCA2基因在STAD中,两者结果几乎无差异。感兴趣的小伙伴可以自己试试看。所以,我们在做科研的时候,要多方印证,做出自己的判断,尽信书则不如无书。

fig6.png   NOP2比较(差异明显)

fig7.png   FUCA2比较(几乎无差异)

参考文献:

[1] Liao C, Wang X. TCGAplot: an R package for integrative pan-cancer analysis and visualization of TCGA multi-omics data. BMC Bioinformatics. 2023 Dec 17;24(1):483. doi: 10.1186/s12859-023-05615-3. PMID: 38105215; PMCID: PMC10726608

[2] Tang Z, Li C, Kang B, Gao G, Li C, Zhang Z. GEPIA: a web server for cancer and normal gene expression profiling and interactive analyses. Nucleic Acids Res. 2017 Jul 3;45(W1):W98-W102. doi: 10.1093/nar/gkx247. PMID: 28407145; PMCID: PMC5570223.

 微生信助力高分文章,用户 195000 ,引用 3500