VarNet-T:无对照肿瘤样本变异检测新框架

2 阅读2分钟

使用VarNet-T改进仅肿瘤样本的变异检测与突变负荷评估

摘要

体细胞变异检测算法通常通过比较肿瘤样本与配对正常样本的序列数据来检测癌症基因组中的突变。然而,在临床诊断或生物样本库中回顾性分析存档肿瘤样本时,配对正常样本往往不可用,导致难以区分体细胞突变、胚系突变或测序伪影,从而影响变异检测的准确性。本文介绍VarNet-T,一个端到端的弱监督深度学习框架,能够在没有配对正常样本的情况下,从比对的肿瘤测序reads中准确识别体细胞变异。VarNet-T使用数百万个高置信度变异进行训练,并使用公共数据集进行基准测试,结果表明其性能比现有方法提升20-33%。研究评估了覆盖10种实体瘤类型的1000个肿瘤样本的肿瘤突变负荷估计准确性。与现有方法相比,VarNet-T在高肿瘤突变负荷状态分类中的准确性提高了3倍以上,表明其在改善免疫治疗患者筛选方面具有显著潜力。总体而言,VarNet-T的准确性提升有望增强仅肿瘤测序在癌症研究和临床分子诊断中的应用价值。

代码可用性

VarNet-T已公开可用,获取地址为 github.com/skandlab/Va… ,采用PolyForm非商业许可证1.0.0。要运行VarNet-T,请按照说明在仅肿瘤模式下运行VarNet(无需配对正常样本)。

数据可用性

所有基准测试样本的序列数据均来自先前发表的研究。MBL数据存储在European Genome-Phenome Archive中,登录号为EGAD00001001859;CLL数据登录号为EGAD00001001858;COLO829数据登录号为EGAD00001002142;SEQC2数据存储在Sequence Read Archive中,登录号为SRX4728512和SRX4728509。AML数据集从dbGAP下载,登录ID为phs000159。用于评估肿瘤突变负荷的1000个TCGA WES肿瘤样本列于补充文件中,可从GDC下载。用于独立验证的10个PCAWG样本的uuid已列出。胃癌和肝癌训练队列的序列数据分别从EGA和GDC获取。其余训练队列(肉瘤、淋巴瘤、结直肠癌、甲状腺癌和肺癌)的序列数据可从原始研究获取。FINISHED