Sentieon | DNAscope 核心家系（trio） WES 分析全流程详解Sentieon DNAscope

一、背景介绍

在罕见病诊断中，单样本外显子组测序（WES）常面临“瓶颈”——由于缺乏家系成员对照，难以判断变异是否呈现家系共分离，导致致病变异的筛选如同“大海捞针”，且对于复杂遗传模式的漏检率较高。

而核心家系分析（Trio-WES：先证者 + 生物学父母联合测序）恰好破解了这一难题：通过父母与孩子序列的实时比对，若父母健康且不携带相关致病基因，可迅速排除大量良性遗传变异，将候选范围精准锁定在极少数潜在致病位点内。

研究数据充分印证了 WES 模式下家系分析的临床价值：进行 Trio-WES 分析的患儿，其确诊率显著高于单样本分析；由于 WES 具有更高的测序深度（通常 >100X），在核心家系模式下能更灵敏地捕捉到编码区内微小的新生突变（De novo Mutation）和复合杂合突变。平均而言，家系分析向临床团队报告的候选变异数量远少于单样本模式，极大地降低了人工审核的负担。

Sentieon 的 DNAscope 流程基于预训练的机器学习模型，在 WES 复杂捕获区域的单样本调用准确度上已实现大幅提升。针对 WES 核心家系分析的特殊需求，Sentieon 进一步推出了专属流程，利用高深度数据优势，聚焦于孟德尔错误（ME）与新生突变（De novo Mutation）的精准识别。该流程通过优化的算法逻辑，有效过滤了 WES 捕获不均导致的假阳性，进一步降低漏检，为罕见病的临床分子诊断提供更高效、更经济的数据支撑。

二、适用场景

研究对象：疑似罕见病患者及其父母（核心家系）
数据类型：全外显子组测序（WES）数据，支持 PCR-free 和 PCR 建库样本
核心目标：
- 判断变异的家系共分离模式
- 精准识别孟德尔错误（ME）位点
- 高效筛选对诊断至关重要的新生突变

三、环境必备

软件授权： Sentieon license
软件下载
- X86 架构 CPU 服务器版本，例如 Intel、AMD、曙光： ftp.insvast.com/user/Sentie…
- ARM 架构 CPU 服务器版本，例如华为鲲鹏、阿里倚天、Ampere： ftp.insvast.com/user/Sentie…
软件下载链接需账号与密码，请于s信进行获取。
模型下载： github.com/Sentieon/se…

四、分析流程

该分析流程是一个针对家系 WES 数据的变异检测流程，核心目标是准确识别先证者的 de novo 突变（新突变）。流程通过“初步检测 → 联合调用 → 筛选孟德尔不兼容变异 → 重调用优化 → 二次联合调用”的步骤，逐步提高变异检测的准确性，最终输出高质量的家系变异结果，尤其是新突变的注释信息。

该流程用于处理家系（trio，通常指先证者及其父母）全外显子组测序（WES）数据的变异检测流程，使用 sentieon 工具和 bcftools 进行分析。核心分析流程如下：

步骤 1：单样本变异检测

使用 DNAscope 对家系每个样本进行变异检测，生成 GVCF。

# 先证者变异检测
sentieon-cli dnascope -r FASTA --r1-fastq P_FQ1 --r2-fastq P_FQ2 \
  --readgroups "@RG\tID:proband_name\tSM:proband_name\tPL:platform" \
  -m MODEL_BUNDLE -d dbsnp --duplicate-marking rmdup \
  --assay WES --gvcf --skip-svs --skip-multiqc --pcr-free proband_name.vcf.gz

# 父亲/母亲变异检测（命令结构与先证者一致，仅样本名和输入文件不同）
sentieon-cli dnascope ... father_name.vcf.gz
sentieon-cli dnascope ... mother_name.vcf.gz

步骤 2：家系联合基因型进行初轮联合变异检测

使用 GVCFtyper 合并三人 GVCF 生成初步联合 VCF。

sentieon driver -r FASTA --algo GVCFtyper \
  -v proband_name.g.vcf.gz -v father_name.g.vcf.gz -v mother_name.g.vcf.gz \
  joint-call_pass1.vcf.gz

步骤 3：突变 De Novo 突变检测

检测家系中的 de novo 突变，添加 DNM 标签标记新发突变位点。

bcftools +trio-dnm2 -p proband_name,father_name,mother_name -X GRCh38 \
  -o trio-dnm2.output.vcf.gz -Oz --use-NAIVE joint-call_pass1.vcf.gz

步骤 4：变异位点分类

对变异位点进行分类，筛选孟德尔兼容或不兼容变异。

# 筛选孟德尔不兼容变异（可能是 DNM）
bcftools view -i "FMT/DNM[0]==1" trio-dnm2.output.vcf.gz | \
  sentieon util vcfconvert - mendelian-incompatible.vcf.gz

# 筛选孟德尔兼容变异（符合遗传规律）
bcftools view -e "FMT/DNM[0]==1" trio-dnm2.output.vcf.gz | \
  sentieon util vcfconvert - mendelian-compatible.vcf.gz

步骤 5：重召回孟德尔不兼容变异

sentieon driver -r FASTA \
  -i proband_name_deduped.cram -i father_name_deduped.cram -i mother_name_deduped.cram \
  --algo DNAscope --pcr_indel_model none --given mendelian-incompatible.vcf.gz \
  --model MODEL_BUNDLE/dnascope.model mendelian-incompatible.recalled.vcf.gz

步骤 6：筛选高置信度重召回结果

bcftools view -e "QUAL<qual_thresh" mendelian-incompatible.recalled.vcf.gz | \
  sentieon util vcfconvert - mendelian-incompatible.recalled.highconf.vcf.gz

步骤 7：合并结果并进行第二次联合调用

bcftools concat --allow-overlaps mendelian-compatible.vcf.gz \
  mendelian-incompatible.recalled.highconf.vcf.gz | \
  bcftools sort - | sentieon util vcfconvert - joint-call_pass2.vcf.gz

步骤 8：第二次检测 de novo 突变并建立索引

bcftools +trio-dnm2 -p proband_name,father_name,mother_name -X GRCh38 \
  -o trio-dnm2.joint-call_pass2.vcf.gz -Oz --use-NAIVE joint-call_pass2.vcf.gz

sentieon util vcfindex trio-dnm2.joint-call_pass2.vcf.gz

参数说明

FASTA：参考基因组 FASTA 文件路径，需与比对阶段使用的参考一致，如 hg38 的 hs38.fa
dbsnp：dbSNP 数据库 VCF 文件路径，用于变异注释，如 hg38 的 dbSNP138 版本
MODEL_BUNDLE：DNAscope 预训练模型路径，需使用与数据平台匹配的模型，如 Illumina WGS 的 2.0 版本
--readgroups：读组信息，需包含 ID（Read Group ID，读组 ID）、SM（样本名）、PL（测序平台，如 Illumina）
--duplicate-marking：重复序列处理，rmdup 为去除重复，none 为不处理；预处理阶段建议使用 rmdup

结果说明

triodnm2.joint-call_pass2.vcf.gz 是整个家系（trio）变异检测流程的核心输出文件之一，专门用于存储经过二次优化后筛选出的 de novo 突变（DNM，即先证者中出现、父母均未携带的新突变）信息。该文件遵循 VCF 标准格式，是基因组变异数据的通用存储格式。

其中家系 DNM 相关注释如下：

##FORMAT=<ID=DNM,Number=1,Type=Integer,Description="De novo mutation status (1=de novo, 0=not de novo, .=unknown)">关键字段，标记该变异是否为 DNM，1 表示是 DNM。
##INFO=<ID=TRIO_STATUS,Number=1,Type=String,Description="Relationship status in trio (e.g., mendelian_compatible, de_novo)">描述变异在家系中的遗传状态，如 de_novo 表示符合 DNM 特征。

Sentieon DNAscope trio-WES 流程 GitHub 地址：

github.com/Insvast/bio…

五、DNAscope 核心家系设计优势

Sentieon 核心家系流程的准确性依赖以下核心设计：

双轮迭代策略：PASS 1 通过联合调用筛选候选 ME 位点，PASS 2 通过多样本共比对（co-alignment）重新召回，修正单样本漏检导致的假阳性
真集训练与验证：模型训练与流程验证采用 HG002 T2T（端到端）基因组真集及泛基因组样本，确保对复杂区域变异的准确识别
样本适配性：同时支持 PCR-free 与 PCR 建库样本，通过动态参数调整（如 --pcr-free、qual_thresh）适配不同实验条件

六、实际运行测试

本次测试将下载 GIAB 的 HG002、HG003、HG004 WES 项目数据，从而进行 DNAscope 分析查看实际的运行效率。

1. 测试项目使用配置

CPU：Intel(R) Xeon(R) Platinum 8358P CPU @ 2.60GHz，64 核心
内存：512GB DDR4
系统：Ubuntu 22.04.3 LTS

2. 分析结果评测

为了对流程准确率进行评测，我们分析了瓶中基因组核心家系标准品 HG002、HG003、HG004 的 100X MGI WES 的 PCR-free 建库数据集。将检测得到的结果和真集中的 ME 进行比较，计算准确率。

如下图所示，几乎无漏检的存在，假阳性也被控制在一个合理的区间。

TP：真阳结果，在样本最终 ME list 中被列出，同时也存在于真集的 ME list
FN：假阴结果，存在于真集中但是不在样本的最终 ME list，这暗示该位点在先证者数据中被漏检或者错检
FP：假阳结果，存在于样本的最终 ME list 但是不在真集中，这暗示该位点在先证者数据中就是假阳性或者在父母样本中漏检

3. Bam 质控统计

指标	HG002_deduped.bam	HG003_deduped.bam	HG004_deduped.bam
[Total] Raw Reads (All reads)	150386776	128608638	146149978
[Total] QC Fail reads	0	0	0
[Total] Raw Data(Mb)	18948.73	16204.69	18414.9
[Total] Paired Reads	150386776	128608638	146149978
[Total] Mapped Reads	149956595	128273760	145773372
[Total] Fraction of Mapped Reads	99.71%	99.74%	99.74%
[Total] Mapped Data(Mb)	18894.53	16162.49	18367.44
[Total] Fraction of Mapped Data(Mb)	99.71%	99.74%	99.74%
[Total] Properly paired	148818172	127384880	144716192
[Total] Fraction of Properly paired	98.96%	99.05%	99.02%
[Total] Read and mate paired	149708260	128064082	145529472
[Total] Fraction of Read and mate paired	99.55%	99.58%	99.58%
[Total] Singletons	248335	209678	243900
[Total] Read and mate map to diff chr	322494	263786	345692
[Total] Read1	75193388	64304319	73074989
[Total] Read2	75193388	64304319	73074989
[Total] Read1(rmdup)	71382116	61481327	69338113
[Total] Read2(rmdup)	71283939	61393996	69239325
[Total] forward strand reads	74963676	64116295	72877727
[Total] backward strand reads	74992919	64157465	72895645
[Total] PCR duplicate reads	7290540	5398437	7195934
[Total] Fraction of PCR duplicate reads	4.86%	4.21%	4.94%
[Total] Map quality cutoff value	20	20	20
[Total] MapQuality above cutoff reads	146608546	125434718	142355051
[Total] Fraction of MapQ reads in all reads	97.49%	97.53%	97.40%
[Total] Fraction of MapQ reads in mapped reads	97.77%	97.79%	97.66%
[Insert size] Average	201.44	203.27	200.09
[Insert size] Median	186	188	185
[Target] Target Reads	100741473	85329743	95522567
[Target] Fraction of Target Reads in all reads	66.99%	66.35%	65.36%
[Target] Fraction of Target Reads in mapped reads	67.18%	66.52%	65.53%
[Target] Target Data(Mb)	8967.52	7573.95	8507.73
[Target] Target Data Rmdup(Mb)	8414.83	7159.03	7973.14
[Target] Fraction of Target Data in all data	47.33%	46.74%	46.20%
[Target] Fraction of Target Data in mapped data	47.46%	46.86%	46.32%
[Target] Len of region	73336305	73336305	73336305
[Target] Average depth	122.28	103.28	116.01
[Target] Average depth(rmdup)	114.74	97.62	108.72
[Target] Coverage (>0.2*(Average depth)x)	51.23%	51.34%	51.27%
[Target] Coverage (>0.5*(Average depth)x)	46.81%	46.94%	47.04%
[Target] Coverage (>0x)	75.22%	74.01%	76.23%
[Target] Coverage (>=4x)	60.26%	59.12%	60.84%
[Target] Coverage (>=10x)	54.10%	53.61%	54.11%
[Target] Coverage (>=30x)	50.45%	49.83%	50.34%
[Target] Coverage (>=100x)	41.69%	39.01%	41.30%

4. 分析内存统计

步骤	HG002	HG003	HG004
比对+排序内存（G）	21.69	21.62	21.66
去重内存（G）	1.82	1.81	1.86
统计 metrics 质控信息内存（G）	0.3	0.28	0.29
DNAscope 变异检测内存（G）	1.76	1.73	1.95
DNAModelApply 机器学习模型应用与变异过滤内存（G）	3.44	3.44	3.44
GVCFtyper 变异检测内存（G）	0.13	0.12	0.13

5. 分析时间统计

步骤一耗时如下所示：

步骤	HG002	HG003	HG004
比对+排序时间（min）	3.85	3.26	3.65
去重时间（min）	0.72	0.49	0.56
统计 metrics 质控信息时间（min）	0.28	0.27	0.28
DNAscope 变异检测时间（min）	1.85	1.58	1.78
DNAModelApply 机器学习模型应用与变异过滤时间（min）	1.28	1.18	1.38
GVCFtyper 变异检测时间（min）	0.21	0.2	0.21
总时间（min）	8.2	6.98	7.86

3 个样本一起做家系分析（步骤二到步骤八）共耗时 3.6 分钟。同时提交步骤 1，待其完成后再提交步骤 2 至步骤 8，全流程能在 12 分钟内完成 100X 的 WES 样本的家系分析，内存最大占用为 21.69 G。

目前，Sentieon 核心家系分析流程已集成至最新版 Sentieon 软件包，已授权用户可直接调用脚本运行；若您尚未成为 Sentieon 用户，欢迎后台联系试用。

Sentieon 软件介绍

Sentieon 为完整的纯软件基因变异检测二级分析方案，其分析流程完全忠于 BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard 等金标准的数学模型。在匹配开源流程分析结果的前提下，大幅提升 WGS、WES、Panel、UMI、ctDNA、RNA 等测序数据的分析效率和检出精度，并匹配目前全部第二代、三代测序平台。

Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验，致力于解决生物数据分析中的速度与准确度瓶颈，为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案，共同推动基因技术的发展。

截至 2026 年 4 月份，Sentieon 已经在全球范围内为 1860+ 用户提供服务，用户处理超过 7400+ PB 数据量，被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用，引用次数超过 1900 篇。此外，Sentieon 连续数年摘得了 PrecisionFDA、Dream Challenges 等多个权威评比的桂冠，在业内获得广泛认可。