摘要
体细胞变异检测是癌症基因组学分析的重要组成部分。虽然大多数方法主要关注短读长测序,但长读长技术在重复序列定位和变异定相方面具有潜在优势。本文介绍DeepSomatic,这是一种用于从短读长和长读长数据中检测体细胞小核苷酸变异以及插入和缺失的深度学习方法。该方法提供全基因组和全外显子组测序模式,可以在肿瘤-正常配对样本、仅有肿瘤样本以及福尔马林固定石蜡包埋样本上运行。
为了训练DeepSomatic并解决体细胞变异检测公开训练和基准数据匮乏的问题,本研究生成并公开提供了癌症标准长读长评估(CASTLE)数据集,该数据集包含六对匹配的肿瘤-正常细胞系全基因组测序数据,分别使用某中心的短读长技术、某中心HiFi长读长技术以及某机构纳米孔长读长技术进行测序,同时提供了基准变异集。在多种样本(包括细胞系和患者来源样本)以及多种测序技术(短读长和长读长)中,DeepSomatic均优于现有的变异检测工具。
引言
体细胞变异在癌症发生和发展中起着关键作用。准确检测这些变异对于理解肿瘤生物学和指导临床决策至关重要。传统的体细胞变异检测方法主要基于短读长测序技术,但其在检测重复区域和复杂结构变异方面存在局限性。近年来,长读长测序技术的出现为解决这些问题提供了新途径,但针对多技术平台的统一变异检测工具仍然缺乏。
本文提出的DeepSomatic方法,结合了深度学习技术的优势,能够整合短读长和长读长测序数据的优势,提高体细胞小变异的检测准确性和可靠性。
方法
DeepSomatic架构
DeepSomatic基于卷积神经网络(CNN)构建,该架构已被证明在图像识别和生物信息学任务中表现优异。该方法的核心思想是将测序读取的多维特征转换为图像表示,然后通过深度学习模型进行分类。
模型接受三种主要输入:
- 比对信息:包括碱基质量值、比对质量值和读取方向
- 序列背景:参考基因组序列和读取序列
- 统计特征:如等位基因频率和读取深度
对于短读长数据,模型使用局部比对信息;对于长读长数据,则整合了全长比对特征以提高准确性。
训练数据与预处理
为了解决训练数据匮乏的问题,本研究创建了CASTLE数据集,该数据集包括:
- 六对匹配的肿瘤-正常细胞系全基因组测序数据
- 三种测序技术:某中心短读长、某中心HiFi长读长和某机构纳米孔长读长
- 高质量的基准变异集,通过多种正交方法验证
训练过程中,采用数据增强技术增加样本多样性,包括模拟测序错误、改变读取深度和引入人工变异。
多模态数据处理
DeepSomatic设计支持多种数据输入模式:
- 肿瘤-正常配对模式:同时分析肿瘤和匹配的正常样本,提高特异性
- 肿瘤单独模式:在没有匹配正常样本的情况下进行检测
- FFPE样本模式:针对福尔马林固定石蜡包埋样本的特殊处理流程
对于长读长数据,还集成了单倍型分型信息,进一步提高变异检测准确性。
结果
基准性能评估
在SEQC2 HCC1395基准数据集上,DeepSomatic在体细胞单核苷酸变异检测方面表现出色:
- 灵敏度:相比现有方法提高5-15%
- 特异性:误报率降低10-20%
- 均衡性:在不同变异类型和基因组区域间表现一致
特别是在低频率变异(等位基因频率