一、前言
在基因组学研究中,全外显子组测序(Whole Exome Sequencing, WES)已成为解码基因编码区域变异的常规工具,能够全面捕获人类基因组中约 2% 的外显子区域序列,从而在单核苷酸水平识别与疾病相关的功能变异,提供比全基因组测序(WGS)更经济、更深入的靶向分析手段,尤其适用于孟德尔遗传病及复杂疾病相关编码变异的发现。研究表明,WES 在多种遗传疾病中展现出重要的诊断价值——例如在神经发育障碍中其诊断率可达 25% – 40%,是临床遗传检测的一线选择之一。
然而,随着测序通量的提升与样本量的增加,基于传统 GATK 的分析流程在处理大规模 WES 数据时日益面临耗时漫长、计算资源消耗大的瓶颈,许多临床与科研团队需面对数天甚至数周的分析周期,影响了诊断时效与结果交付。
为应对这一挑战,Sentieon 开发了涵盖从比对、去重、碱基质量校正到变异检测的一体化 WES 分析加速模块,通过高度优化的算法与并行计算架构,大幅缩短全流程分析时间,为高通量WES数据提供了高效、可靠的生信分析解决方案。
二、Sentieon-cli dnascope 流程总览
Sentieon® Genomics 软件包含一个改进的算法来执行胚系 DNA 分析的变异检测步骤。DNAscope 使用的流程类似于 DNAseq® 中描述的流程,但在比对和变异检测方面都有所不同。
DNAscope 接受模型文件以提高处理速度和准确性,除了检测 SNP 和小 indel 外,它还可以进行结构变异检测。DNAscope 的核心优势在于结合机器学习模型进行高精度变异检测,而该模型是专门为二倍体样本设计的。因此,官方明确推荐将带有机器学习模型的 DNAscope 用于人类或其他哺乳动物样本的测序数据集。
图1 推荐用于 DNA 变异检测分析的生物信息学流程
在这个生物信息学流程中,您需要以下输入文件:
- FASTA 文件:包含与待分析样本对应的参考基因组核苷酸序列。
- FASTQ 文件:一个或多个包含待分析样本核苷酸序列的文件。这些文件包含来自 DNA 测序的原始读数。软件支持输入使用 GZIP 压缩的 FASTQ 文件。软件仅支持包含 Sanger 格式(Phred+33)质量分数的文件。
- 机器学习模型文件:可从 github.com/Sentieon/se… 获取特定测序平台机器学习模型文件。
- (可选)包含变异检测区间的 BED 文件。推荐用于全外显子组或靶向测序数据。
- (可选)您想在流程中包含的单核苷酸多态性数据库(dbSNP)数据。数据以 VCF 文件的形式使用;您可以使用 bgzip 压缩并索引的 VCF 文件。
DNAscope 的典型生物信息学分析流程包括以下步骤:
- 将读数映射到参考基因组:此步骤将 FASTQ 文件中的读段比对并映射到 FASTA 文件中的参考基因组上。该步骤确保了数据能够被置于基因组上下文背景中(确定其路径)。
- 计算数据指标:此步骤生成关于数据质量和流程分析质量的统计摘要。
- 去除或标记重复:此步骤检测表明同一 DNA 分子被多次测序的读数。这些重复序列不具有信息价值,不应作为额外的证据进行计数。
- 使用带机器学习模型的 DNAscope 进行变异检测:这一步识别您的数据相对于参考基因组显示变异的位点,并计算每个样本在该位点的基因型。
1. 使用 FASTQ 文件作为输入
针对 FASTQ 格式文件,通过运行单条命令即可完成序列比对、预处理,并检测单核苷酸变异、插入缺失变异及结构变异。
sentieon-cli dnascope [-h] \
-r REFERENCE \
--r1-fastq R1_FASTQ ... \
--r2-fastq R2_FASTQ ... \
--readgroups READGROUPS ... \
-m MODEL_BUNDLE \
[-d DBSNP] \
[-b INTERVAL_FILE] \
[--interval_padding 0] \
[-t NUMBER_THREADS] \
[--pcr_free] \
[-g] \
[--duplicate_marking markdup] \
[--assay WGS] \
[--consensus] \
[--dry_run] \
[--bam_format] \
SAMPLE_VCF
使用 FASTQ 文件作为输入时,DNAscope 流程需要以下参数:
- -r REFERENCE:参考序列 FASTA 文件的位置。同时需要参考序列的 fasta 索引文件 “.fai” 以及 bwa 索引文件。
- --r1_fastq R1_FASTQ:R1 端的输入 FASTQ 文件。可以多次指定。没有对应 R2_FASTQ 文件的 R1_FASTQ 文件将被视为单端测序数据。请注意,该流程执行单样本处理,所有 fastq 文件应来自同一个样本。
- --r2_fastq R2_FASTQ:R2 端的输入 FASTQ 文件。可以多次指定。
- --readgroups READGROUPS:每个 FASTQ 文件的读段组信息。流程将要求 --r1_fastq 参数和 --readgroups 参数具有相同数量的输入。示例参数为:--readgroups "@RG\tID:HG002-1\tSM:HG002\tLB:HG002-LB-1\tPL:ILLUMINA"
- -m MODEL_BUNDLE:模型包文件的位置。模型包文件可在 sentieon-models 代码仓库中找到。
- SAMPLE_VCF:用于输出 SNV 和小插入缺失(indel)的 VCF 文件的位置。流程要求输出文件后缀为 .vcf.gz。不包含后缀的文件路径将用作其他输出文件的基础名称。
DNAscope 流程接受以下可选参数:
- -d DBSNP:用于在 VCF 中标记已知变异的单核苷酸多态性数据库(dbSNP)的位置,文件格式为 VCF (.vcf) 或 bgzip 压缩的 VCF (.vcf.gz)。仅支持一个文件。提供此文件将用其 dbSNP 的 refSNP ID 号对变异进行注释。需要 VCF 索引文件。
- -b INTERVAL_FILE:用于限制变异检测的参考基因组区间,格式为 BED 文件。提供此文件将把变异检测限制在 BED 文件内的区间。如果不提供 BED 文件,软件将处理全基因组。
- --interval_padding INTERVAL_PADDING:在输入区间的边缘添加 INTERVAL_PADDING 个碱基的填充区域。默认值为 0。
- -t NUMBER_THREADS:软件将用于运行并行进程的计算线程数。此参数为可选;如果省略,流程将使用服务器所有的线程。
- --pcr_free:使用 --pcr_indel_model NONE 调用变异,适用于通过 PCR-free 文库制备方法构建的文库。仍会执行去重以识别光学重复。
- -g:除了 VCF 输出文件外,还以 gVCF 格式输出变异。工具将输出一个 bgzip 压缩的 gVCF 文件及其对应的索引文件。
- --duplicate_marking DUP_MARKING:重复序列标记的设置。markdup 将标记重复读段。rmdup 将删除重复读段。none 将跳过重复标记。默认设置为 markdup。
- --assay ASSAY:用于指标收集的检测类型设置,WGS 或 WES。默认设置为 WGS。
- --consensus:在重复标记期间生成一致性读段。
- -h:打印命令行帮助信息并退出。
- --dry_run:打印流程命令,但不实际执行。
- --bam_format:使用 BAM 格式而非 CRAM 格式作为输出比对文件。
2. 使用未排序 BAM 或 CRAM 文件作为输入
针对未排序的 BAM 文件或 CRAM 文件,通过运行单条命令即可完成比对、预处理,并检测单核苷酸变异、插入缺失变异及结构变异。
sentieon-cli dnascope [-h] \
-r REFERENCE \
-i SAMPLE_INPUT ... \
--align \
[--input_ref INPUT_REF] \
-m MODEL_BUNDLE \
[-d DBSNP] \
[-b BED] \
[--interval_padding INTERVAL_PADDING] \
[-t NUMBER_THREADS] \
[--pcr_free] \
[-g] \
[--duplicate_marking DUP_MARKING] \
[--assay ASSAY] \
[--consensus] \
[--dry_run] \
[--bam_format] \
SAMPLE_VCF
当使用 uBAM 或 uCRAM 文件作为输入时,DNAscope 流程需要以下新增参数:
-
必要参数:
- -i SAMPLE_INPUT:输入样本文件,格式为 uBAM 或 uCRAM。可以通过在 -i参数后提供多个文件来指定一个或多个输入文件。
- --align:指示流程对输入的读段进行比对。
-
新增可选参数:
- --input_ref INPUT_REF:用于解码输入文件(uCRAM)的参考序列 fasta 文件。在使用 uCRAM 输入时是必需的。此参考文件可以与 -r参数使用的参考文件不同。
3. 使用已排序的 BAM 或 CRAM 文件
针对已经排序的 BAM 或 CRAM 文件,通过运行单条命令即可完成预处理,并检测单核苷酸变异、插入缺失变异及结构变异。
sentieon-cli dnascope [-h] \
-r REFERENCE \
-i SAMPLE_INPUT ... \
-m MODEL_BUNDLE \
[-d DBSNP] \
[-b BED] \
[--interval_padding INTERVAL_PADDING] \
[-t NUMBER_THREADS] \
[--pcr_free] \
[-g] \
[--duplicate_marking DUP_MARKING] \
[--assay ASSAY] \
[--consensus] \
[--dry_run] \
[--bam_format] \
SAMPLE_VCF
若不指定 --align和 --collate_align参数,流程将直接基于输入的测序序列进行变异检测。
Sentieon-cli dnascope_wes.sh流程github地址:
三、流程输出
1. 输出文件列表
当使用默认参数处理全基因组测序(WGS)FASTQ 数据,并设定输出文件为 * sample.vcf.gz时,会生成以下文件:
- sample.vcf.gz:SNV 和插入缺失(indel)的变异检测结果,覆盖由 -b 参数指定的 BED 文件所定义的基因组区域。
- sample_deduped.cram或 sample_deduped.bam:经过比对、坐标排序和重复标记的读段数据,源自输入的 FASTQ 文件。
- sample_svs.vcf.gz:由 DNAscope 和 SVSolver 生成的结构变异检测结果。
- sample_metrics:一个目录,包含所分析样本的质量控制(QC)指标。
- sample_metrics/coverage*:所处理样本的覆盖度指标。仅适用于 WGS 样本。
- sample_metrics/{sample}.txt.alignment_stat.txt:来自 AlignmentStat 算法的比对统计指标。
- sample_metrics/{sample}.txt.base_distribution_by_cycle.txt:来自 BaseDistributionByCycle 算法的碱基分布(按测序循环) 指标。
- sample_metrics/{sample}.txt.dedup_metrics.txt:来自 Dedup 算法的去重指标。
- sample_metrics/{sample}.txt.gc_bias*:来自 GCBias 算法的 GC 偏好性指标。仅适用于 WGS 样本。
- sample_metrics/{sample}.txt.insert_size.txt:来自 InsertSizeMetricAlgo 算法的插入片段大小指标。
- sample_metrics/{sample}.txt.mean_qual_by_cycle.txt:来自 MeanQualityByCycle 算法的平均测序质量(按测序循环) 指标。
- sample_metrics/{sample}.txt.qual_distribution.txt:来自 QualDistribution 算法的测序质量分布指标。
- sample_metrics/{sample}.txt.wgs.txt:来自 WgsMetricsAlgo 算法的全基因组测序指标。仅适用于 WGS 样本。
- sample_metrics/{sample}.txt.hybrid-selection.txt:来自 HsMetricAlgo 算法的杂交捕获相关指标。
- sample_metrics/multiqc_report.html:由 MultiQC 工具汇总的综合性质量控制指标报告。
四、实际运行测试
本次测试以人类数据为例,下载 SRP329754 项目数据并进行 dnascope 分析流程,评估其在实际中的性能表现。
1. 服务器配置:
- CPU 为 Intel(R) Xeon(R) Platinum 8358P CPU @ 2.60GHz 64 核心
- 内存为 512GB DDR4
- 系统为 Ubuntu 22.04.3 LTS
2. 软件下载安装
- ftp.insvast.com/user/Sentie… X86 架构 CPU 服务器,例如 Intel、 AMD、 曙光)
- ftp.insvast.com/user/Sentie… ARM 架构 CPU 服务器, 例如华为鲲鹏、 阿⾥倚天、 Ampere)
- 软件下载链接用户名:insvast;密码:Ins@1234
3. 参考基因组
本次分析采用 UCSC hg19 作为人类参考基因组:
ftp.ncbi.nlm.nih.gov/genomes/all…
4. 分析运行
dnascope_wes.sh 210 ./210 /WES-test/data/210_R1.fastq.gz /WES-test/data/210_R2.fastq.gz /WES-test/refseq/hg19.fa raw keep keep 2 /WES-test/refseq/MGI_Exome_Capture_V5_fixed.bed false
dnascope_wes.sh 69 ./69 /WES-test/data/69_R1.fastq.gz /WES-test/data/69_R2.fastq.gz /WES-test/refseq/hg19.fa raw keep keep 2 /WES-test/refseq/MGI_Exome_Capture_V5_fixed.bed false
五、分析结果展示
1. 输出文件
2. qc结果展示
multiqc_report.html 界面展示:
本次测试的 2 个人类样本数据产出稳定(单样本~8GB),有效率 >99.86% 且Q30 高达 93.7% 以上,测序质量与准确度极佳。GC含量(~43.1%)与插入片段分布表现出高度的样本间一致性,唯一比对率稳定在 99.9% 左右,证明文库质量优异,完全符合差异表达或变异检测等高标准下游分析要求。
3. 用时统计
如果不需要sv结果可以在分析参数中指定 --skip-svs,能进一步压缩分析时间:
在 64 核测试服务器上 16G 数据量的人类 WES 数据(294X)平均分析仅耗时 15.43 min,极大缩短了分析时间,加快科研成果转化。Sentieon 在不断的优化算法的运行效率,为科研工作者提供更快速、更经济的基因检测方案。
若您刚好有需要检测的数据,不妨来申请试用 Sentieon 吧!
Sentieon-cli dnascope 官方文档:
support.sentieon.com/docs/sentie…
Sentieon软件介绍
Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。
Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。
截至2026年4月份,Sentieon已经在全球范围内为1860+用户提供服务,用户处理超过7400+PB数据量,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过1900篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。