Sentieon | 300X WES临床级全外单机只要15分钟Sentieon开发了涵盖从比对、去重、碱基质量校正到

一、前言

在基因组学研究中，全外显子组测序（Whole Exome Sequencing, WES）已成为解码基因编码区域变异的常规工具，能够全面捕获人类基因组中约 2% 的外显子区域序列，从而在单核苷酸水平识别与疾病相关的功能变异，提供比全基因组测序（WGS）更经济、更深入的靶向分析手段，尤其适用于孟德尔遗传病及复杂疾病相关编码变异的发现。研究表明，WES 在多种遗传疾病中展现出重要的诊断价值——例如在神经发育障碍中其诊断率可达 25% – 40%，是临床遗传检测的一线选择之一。

然而，随着测序通量的提升与样本量的增加，基于传统 GATK 的分析流程在处理大规模 WES 数据时日益面临耗时漫长、计算资源消耗大的瓶颈，许多临床与科研团队需面对数天甚至数周的分析周期，影响了诊断时效与结果交付。

为应对这一挑战，Sentieon 开发了涵盖从比对、去重、碱基质量校正到变异检测的一体化 WES 分析加速模块，通过高度优化的算法与并行计算架构，大幅缩短全流程分析时间，为高通量WES数据提供了高效、可靠的生信分析解决方案。

二、Sentieon-cli dnascope 流程总览

Sentieon® Genomics 软件包含一个改进的算法来执行胚系 DNA 分析的变异检测步骤。DNAscope 使用的流程类似于 DNAseq® 中描述的流程，但在比对和变异检测方面都有所不同。

DNAscope 接受模型文件以提高处理速度和准确性，除了检测 SNP 和小 indel 外，它还可以进行结构变异检测。DNAscope 的核心优势在于结合机器学习模型进行高精度变异检测，而该模型是专门为二倍体样本设计的。因此，官方明确推荐将带有机器学习模型的 DNAscope 用于人类或其他哺乳动物样本的测序数据集。

图1 推荐用于 DNA 变异检测分析的生物信息学流程

在这个生物信息学流程中，您需要以下输入文件：

FASTA 文件：包含与待分析样本对应的参考基因组核苷酸序列。
FASTQ 文件：一个或多个包含待分析样本核苷酸序列的文件。这些文件包含来自 DNA 测序的原始读数。软件支持输入使用 GZIP 压缩的 FASTQ 文件。软件仅支持包含 Sanger 格式（Phred+33）质量分数的文件。
机器学习模型文件：可从 github.com/Sentieon/se… 获取特定测序平台机器学习模型文件。
（可选）包含变异检测区间的 BED 文件。推荐用于全外显子组或靶向测序数据。
（可选）您想在流程中包含的单核苷酸多态性数据库（dbSNP）数据。数据以 VCF 文件的形式使用；您可以使用 bgzip 压缩并索引的 VCF 文件。

DNAscope 的典型生物信息学分析流程包括以下步骤：

将读数映射到参考基因组：此步骤将 FASTQ 文件中的读段比对并映射到 FASTA 文件中的参考基因组上。该步骤确保了数据能够被置于基因组上下文背景中（确定其路径）。
计算数据指标：此步骤生成关于数据质量和流程分析质量的统计摘要。
去除或标记重复：此步骤检测表明同一 DNA 分子被多次测序的读数。这些重复序列不具有信息价值，不应作为额外的证据进行计数。
使用带机器学习模型的 DNAscope 进行变异检测：这一步识别您的数据相对于参考基因组显示变异的位点，并计算每个样本在该位点的基因型。

1. 使用 FASTQ 文件作为输入

针对 FASTQ 格式文件，通过运行单条命令即可完成序列比对、预处理，并检测单核苷酸变异、插入缺失变异及结构变异。

sentieon-cli dnascope [-h] \
  -r REFERENCE \
  --r1-fastq R1_FASTQ ... \
  --r2-fastq R2_FASTQ ... \
  --readgroups READGROUPS ... \
  -m MODEL_BUNDLE \
  [-d DBSNP] \
  [-b INTERVAL_FILE] \
  [--interval_padding 0] \
  [-t NUMBER_THREADS] \
  [--pcr_free] \
  [-g] \
  [--duplicate_marking markdup] \
  [--assay WGS] \
  [--consensus] \
  [--dry_run] \
  [--bam_format] \
  SAMPLE_VCF

使用 FASTQ 文件作为输入时，DNAscope 流程需要以下参数：

-r REFERENCE：参考序列 FASTA 文件的位置。同时需要参考序列的 fasta 索引文件 “.fai” 以及 bwa 索引文件。
--r1_fastq R1_FASTQ：R1 端的输入 FASTQ 文件。可以多次指定。没有对应 R2_FASTQ 文件的 R1_FASTQ 文件将被视为单端测序数据。请注意，该流程执行单样本处理，所有 fastq 文件应来自同一个样本。
--r2_fastq R2_FASTQ：R2 端的输入 FASTQ 文件。可以多次指定。
--readgroups READGROUPS：每个 FASTQ 文件的读段组信息。流程将要求 --r1_fastq 参数和 --readgroups 参数具有相同数量的输入。示例参数为：--readgroups "@RG\tID:HG002-1\tSM:HG002\tLB:HG002-LB-1\tPL:ILLUMINA"
-m MODEL_BUNDLE：模型包文件的位置。模型包文件可在 sentieon-models 代码仓库中找到。
SAMPLE_VCF：用于输出 SNV 和小插入缺失（indel）的 VCF 文件的位置。流程要求输出文件后缀为 .vcf.gz。不包含后缀的文件路径将用作其他输出文件的基础名称。

DNAscope 流程接受以下可选参数：

-d DBSNP：用于在 VCF 中标记已知变异的单核苷酸多态性数据库（dbSNP）的位置，文件格式为 VCF (.vcf) 或 bgzip 压缩的 VCF (.vcf.gz)。仅支持一个文件。提供此文件将用其 dbSNP 的 refSNP ID 号对变异进行注释。需要 VCF 索引文件。
-b INTERVAL_FILE：用于限制变异检测的参考基因组区间，格式为 BED 文件。提供此文件将把变异检测限制在 BED 文件内的区间。如果不提供 BED 文件，软件将处理全基因组。
--interval_padding INTERVAL_PADDING：在输入区间的边缘添加 INTERVAL_PADDING 个碱基的填充区域。默认值为 0。
-t NUMBER_THREADS：软件将用于运行并行进程的计算线程数。此参数为可选；如果省略，流程将使用服务器所有的线程。
--pcr_free：使用 --pcr_indel_model NONE 调用变异，适用于通过 PCR-free 文库制备方法构建的文库。仍会执行去重以识别光学重复。
-g：除了 VCF 输出文件外，还以 gVCF 格式输出变异。工具将输出一个 bgzip 压缩的 gVCF 文件及其对应的索引文件。
--duplicate_marking DUP_MARKING：重复序列标记的设置。markdup 将标记重复读段。rmdup 将删除重复读段。none 将跳过重复标记。默认设置为 markdup。
--assay ASSAY：用于指标收集的检测类型设置，WGS 或 WES。默认设置为 WGS。
--consensus：在重复标记期间生成一致性读段。
-h：打印命令行帮助信息并退出。
--dry_run：打印流程命令，但不实际执行。
--bam_format：使用 BAM 格式而非 CRAM 格式作为输出比对文件。

2. 使用未排序 BAM 或 CRAM 文件作为输入

针对未排序的 BAM 文件或 CRAM 文件，通过运行单条命令即可完成比对、预处理，并检测单核苷酸变异、插入缺失变异及结构变异。

sentieon-cli dnascope [-h] \
  -r REFERENCE \
  -i SAMPLE_INPUT ... \
  --align \
  [--input_ref INPUT_REF] \
  -m MODEL_BUNDLE \
  [-d DBSNP] \
  [-b BED] \
  [--interval_padding INTERVAL_PADDING] \
  [-t NUMBER_THREADS] \
  [--pcr_free] \
  [-g] \
  [--duplicate_marking DUP_MARKING] \
  [--assay ASSAY] \
  [--consensus] \
  [--dry_run] \
  [--bam_format] \
  SAMPLE_VCF

当使用 uBAM 或 uCRAM 文件作为输入时，DNAscope 流程需要以下新增参数：

必要参数：
- -i SAMPLE_INPUT：输入样本文件，格式为 uBAM 或 uCRAM。可以通过在 -i参数后提供多个文件来指定一个或多个输入文件。
- --align：指示流程对输入的读段进行比对。
新增可选参数：
- --input_ref INPUT_REF：用于解码输入文件（uCRAM）的参考序列 fasta 文件。在使用 uCRAM 输入时是必需的。此参考文件可以与 -r参数使用的参考文件不同。

3. 使用已排序的 BAM 或 CRAM 文件

针对已经排序的 BAM 或 CRAM 文件，通过运行单条命令即可完成预处理，并检测单核苷酸变异、插入缺失变异及结构变异。

sentieon-cli dnascope [-h] \
  -r REFERENCE \
  -i SAMPLE_INPUT ... \
  -m MODEL_BUNDLE \
  [-d DBSNP] \
  [-b BED] \
  [--interval_padding INTERVAL_PADDING] \
  [-t NUMBER_THREADS] \
  [--pcr_free] \
  [-g] \
  [--duplicate_marking DUP_MARKING] \
  [--assay ASSAY] \
  [--consensus] \
  [--dry_run] \
  [--bam_format] \
  SAMPLE_VCF

若不指定 --align和 --collate_align参数，流程将直接基于输入的测序序列进行变异检测。

Sentieon-cli dnascope_wes.sh流程github地址:

github.com/Insvast/bio…

三、流程输出

1. 输出文件列表

当使用默认参数处理全基因组测序（WGS）FASTQ 数据，并设定输出文件为 * sample.vcf.gz时，会生成以下文件：

sample.vcf.gz：SNV 和插入缺失（indel）的变异检测结果，覆盖由 -b 参数指定的 BED 文件所定义的基因组区域。
sample_deduped.cram或 sample_deduped.bam：经过比对、坐标排序和重复标记的读段数据，源自输入的 FASTQ 文件。
sample_svs.vcf.gz：由 DNAscope 和 SVSolver 生成的结构变异检测结果。
sample_metrics：一个目录，包含所分析样本的质量控制（QC）指标。
sample_metrics/coverage*：所处理样本的覆盖度指标。仅适用于 WGS 样本。
sample_metrics/{sample}.txt.alignment_stat.txt：来自 AlignmentStat 算法的比对统计指标。
sample_metrics/{sample}.txt.base_distribution_by_cycle.txt：来自 BaseDistributionByCycle 算法的碱基分布（按测序循环）指标。
sample_metrics/{sample}.txt.dedup_metrics.txt：来自 Dedup 算法的去重指标。
sample_metrics/{sample}.txt.gc_bias*：来自 GCBias 算法的 GC 偏好性指标。仅适用于 WGS 样本。
sample_metrics/{sample}.txt.insert_size.txt：来自 InsertSizeMetricAlgo 算法的插入片段大小指标。
sample_metrics/{sample}.txt.mean_qual_by_cycle.txt：来自 MeanQualityByCycle 算法的平均测序质量（按测序循环）指标。
sample_metrics/{sample}.txt.qual_distribution.txt：来自 QualDistribution 算法的测序质量分布指标。
sample_metrics/{sample}.txt.wgs.txt：来自 WgsMetricsAlgo 算法的全基因组测序指标。仅适用于 WGS 样本。
sample_metrics/{sample}.txt.hybrid-selection.txt：来自 HsMetricAlgo 算法的杂交捕获相关指标。
sample_metrics/multiqc_report.html：由 MultiQC 工具汇总的综合性质量控制指标报告。

四、实际运行测试

本次测试以人类数据为例，下载 SRP329754 项目数据并进行 dnascope 分析流程，评估其在实际中的性能表现。

1. 服务器配置：

CPU 为 Intel(R) Xeon(R) Platinum 8358P CPU @ 2.60GHz 64 核心
内存为 512GB DDR4
系统为 Ubuntu 22.04.3 LTS

2. 软件下载安装

ftp.insvast.com/user/Sentie… X86 架构 CPU 服务器，例如 Intel､ AMD､曙光）
ftp.insvast.com/user/Sentie… ARM 架构 CPU 服务器，例如华为鲲鹏､阿⾥倚天､ Ampere）
软件下载链接用户名：insvast；密码：Ins@1234

3. 参考基因组

本次分析采用 UCSC hg19 作为人类参考基因组：

ftp.ncbi.nlm.nih.gov/genomes/all…

4. 分析运行

dnascope_wes.sh 210 ./210 /WES-test/data/210_R1.fastq.gz  /WES-test/data/210_R2.fastq.gz  /WES-test/refseq/hg19.fa raw keep  keep  2 /WES-test/refseq/MGI_Exome_Capture_V5_fixed.bed false

dnascope_wes.sh 69 ./69 /WES-test/data/69_R1.fastq.gz  /WES-test/data/69_R2.fastq.gz  /WES-test/refseq/hg19.fa raw keep  keep  2 /WES-test/refseq/MGI_Exome_Capture_V5_fixed.bed false

五、分析结果展示

1. 输出文件

34347acc-33f3-446a-b8dd-d71ffd063925

2. qc结果展示

未标题-1-01

multiqc_report.html 界面展示：

8e426860-81bc-4655-bac9-e42511d2028d

本次测试的 2 个人类样本数据产出稳定（单样本~8GB），有效率 >99.86% 且Q30 高达 93.7% 以上，测序质量与准确度极佳。GC含量（~43.1%）与插入片段分布表现出高度的样本间一致性，唯一比对率稳定在 99.9% 左右，证明文库质量优异，完全符合差异表达或变异检测等高标准下游分析要求。

3. 用时统计

屏幕截图 2026-04-16 153802

如果不需要sv结果可以在分析参数中指定 --skip-svs，能进一步压缩分析时间：

屏幕截图 2026-04-16 153816

在 64 核测试服务器上 16G 数据量的人类 WES 数据（294X）平均分析仅耗时 15.43 min，极大缩短了分析时间，加快科研成果转化。Sentieon 在不断的优化算法的运行效率，为科研工作者提供更快速、更经济的基因检测方案。

若您刚好有需要检测的数据，不妨来申请试用 Sentieon 吧！

Sentieon-cli dnascope 官方文档：

support.sentieon.com/docs/sentie…

Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案，其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下，大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度，并匹配目前全部第二代、三代测序平台。

640

Sentieon软件团队拥有丰富的软件开发及算法优化工程经验，致力于解决生物数据分析中的速度与准确度瓶颈，为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案，共同推动基因技术的发展。

截至2026年4月份，Sentieon已经在全球范围内为1860+用户提供服务，用户处理超过7400+PB数据量，被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用，引用次数超过1900篇。此外，Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠，在业内获得广泛认可。