Sentieon | DNAscope 核心家系(trio) WES 分析全流程详解

28 阅读11分钟

一、背景介绍

在罕见病诊断中,单样本外显子组测序(WES)常面临“瓶颈”——由于缺乏家系成员对照,难以判断变异是否呈现家系共分离,导致致病变异的筛选如同“大海捞针”,且对于复杂遗传模式的漏检率较高。

而核心家系分析(Trio-WES:先证者 + 生物学父母联合测序)恰好破解了这一难题:通过父母与孩子序列的实时比对,若父母健康且不携带相关致病基因,可迅速排除大量良性遗传变异,将候选范围精准锁定在极少数潜在致病位点内。

研究数据充分印证了 WES 模式下家系分析的临床价值:进行 Trio-WES 分析的患儿,其确诊率显著高于单样本分析;由于 WES 具有更高的测序深度(通常 >100X),在核心家系模式下能更灵敏地捕捉到编码区内微小的新生突变(De novo Mutation)和复合杂合突变。平均而言,家系分析向临床团队报告的候选变异数量远少于单样本模式,极大地降低了人工审核的负担。

Sentieon 的 DNAscope 流程基于预训练的机器学习模型,在 WES 复杂捕获区域的单样本调用准确度上已实现大幅提升。针对 WES 核心家系分析的特殊需求,Sentieon 进一步推出了专属流程,利用高深度数据优势,聚焦于孟德尔错误(ME)与新生突变(De novo Mutation)的精准识别。该流程通过优化的算法逻辑,有效过滤了 WES 捕获不均导致的假阳性,进一步降低漏检,为罕见病的临床分子诊断提供更高效、更经济的数据支撑。


二、适用场景

  • 研究对象:疑似罕见病患者及其父母(核心家系)
  • 数据类型:全外显子组测序(WES)数据,支持 PCR-free 和 PCR 建库样本
  • 核心目标
    • 判断变异的家系共分离模式
    • 精准识别孟德尔错误(ME)位点
    • 高效筛选对诊断至关重要的新生突变

三、环境必备


四、分析流程

该分析流程是一个针对家系 WES 数据的变异检测流程,核心目标是准确识别先证者的 de novo 突变(新突变)。流程通过“初步检测 → 联合调用 → 筛选孟德尔不兼容变异 → 重调用优化 → 二次联合调用”的步骤,逐步提高变异检测的准确性,最终输出高质量的家系变异结果,尤其是新突变的注释信息。

该流程用于处理家系(trio,通常指先证者及其父母)全外显子组测序(WES)数据的变异检测流程,使用 sentieon 工具和 bcftools 进行分析。核心分析流程如下:

步骤 1:单样本变异检测

使用 DNAscope 对家系每个样本进行变异检测,生成 GVCF。

# 先证者变异检测
sentieon-cli dnascope -r FASTA --r1-fastq P_FQ1 --r2-fastq P_FQ2 \
  --readgroups "@RG\tID:proband_name\tSM:proband_name\tPL:platform" \
  -m MODEL_BUNDLE -d dbsnp --duplicate-marking rmdup \
  --assay WES --gvcf --skip-svs --skip-multiqc --pcr-free proband_name.vcf.gz

# 父亲/母亲变异检测(命令结构与先证者一致,仅样本名和输入文件不同)
sentieon-cli dnascope ... father_name.vcf.gz
sentieon-cli dnascope ... mother_name.vcf.gz

步骤 2:家系联合基因型进行初轮联合变异检测

使用 GVCFtyper 合并三人 GVCF 生成初步联合 VCF。

sentieon driver -r FASTA --algo GVCFtyper \
  -v proband_name.g.vcf.gz -v father_name.g.vcf.gz -v mother_name.g.vcf.gz \
  joint-call_pass1.vcf.gz

步骤 3:突变 De Novo 突变检测

检测家系中的 de novo 突变,添加 DNM 标签标记新发突变位点。

bcftools +trio-dnm2 -p proband_name,father_name,mother_name -X GRCh38 \
  -o trio-dnm2.output.vcf.gz -Oz --use-NAIVE joint-call_pass1.vcf.gz

步骤 4:变异位点分类

对变异位点进行分类,筛选孟德尔兼容或不兼容变异。

# 筛选孟德尔不兼容变异(可能是 DNM)
bcftools view -i "FMT/DNM[0]==1" trio-dnm2.output.vcf.gz | \
  sentieon util vcfconvert - mendelian-incompatible.vcf.gz

# 筛选孟德尔兼容变异(符合遗传规律)
bcftools view -e "FMT/DNM[0]==1" trio-dnm2.output.vcf.gz | \
  sentieon util vcfconvert - mendelian-compatible.vcf.gz

步骤 5:重召回孟德尔不兼容变异

sentieon driver -r FASTA \
  -i proband_name_deduped.cram -i father_name_deduped.cram -i mother_name_deduped.cram \
  --algo DNAscope --pcr_indel_model none --given mendelian-incompatible.vcf.gz \
  --model MODEL_BUNDLE/dnascope.model mendelian-incompatible.recalled.vcf.gz

步骤 6:筛选高置信度重召回结果

bcftools view -e "QUAL<qual_thresh" mendelian-incompatible.recalled.vcf.gz | \
  sentieon util vcfconvert - mendelian-incompatible.recalled.highconf.vcf.gz

步骤 7:合并结果并进行第二次联合调用

bcftools concat --allow-overlaps mendelian-compatible.vcf.gz \
  mendelian-incompatible.recalled.highconf.vcf.gz | \
  bcftools sort - | sentieon util vcfconvert - joint-call_pass2.vcf.gz

步骤 8:第二次检测 de novo 突变并建立索引

bcftools +trio-dnm2 -p proband_name,father_name,mother_name -X GRCh38 \
  -o trio-dnm2.joint-call_pass2.vcf.gz -Oz --use-NAIVE joint-call_pass2.vcf.gz

sentieon util vcfindex trio-dnm2.joint-call_pass2.vcf.gz

参数说明

  • FASTA:参考基因组 FASTA 文件路径,需与比对阶段使用的参考一致,如 hg38 的 hs38.fa
  • dbsnp:dbSNP 数据库 VCF 文件路径,用于变异注释,如 hg38 的 dbSNP138 版本
  • MODEL_BUNDLE:DNAscope 预训练模型路径,需使用与数据平台匹配的模型,如 Illumina WGS 的 2.0 版本
  • --readgroups:读组信息,需包含 ID(Read Group ID,读组 ID)、SM(样本名)、PL(测序平台,如 Illumina)
  • --duplicate-marking:重复序列处理,rmdup 为去除重复,none 为不处理;预处理阶段建议使用 rmdup

结果说明

triodnm2.joint-call_pass2.vcf.gz 是整个家系(trio)变异检测流程的核心输出文件之一,专门用于存储经过二次优化后筛选出的 de novo 突变(DNM,即先证者中出现、父母均未携带的新突变)信息。该文件遵循 VCF 标准格式,是基因组变异数据的通用存储格式。

其中家系 DNM 相关注释如下:

  1. ##FORMAT=<ID=DNM,Number=1,Type=Integer,Description="De novo mutation status (1=de novo, 0=not de novo, .=unknown)">关键字段,标记该变异是否为 DNM,1 表示是 DNM。

  2. ##INFO=<ID=TRIO_STATUS,Number=1,Type=String,Description="Relationship status in trio (e.g., mendelian_compatible, de_novo)">描述变异在家系中的遗传状态,如 de_novo 表示符合 DNM 特征。

Sentieon DNAscope trio-WES 流程 GitHub 地址:

github.com/Insvast/bio…


五、DNAscope 核心家系设计优势

Sentieon 核心家系流程的准确性依赖以下核心设计:

  • 双轮迭代策略:PASS 1 通过联合调用筛选候选 ME 位点,PASS 2 通过多样本共比对(co-alignment)重新召回,修正单样本漏检导致的假阳性
  • 真集训练与验证:模型训练与流程验证采用 HG002 T2T(端到端)基因组真集及泛基因组样本,确保对复杂区域变异的准确识别
  • 样本适配性:同时支持 PCR-free 与 PCR 建库样本,通过动态参数调整(如 --pcr-freequal_thresh)适配不同实验条件

六、实际运行测试

本次测试将下载 GIAB 的 HG002、HG003、HG004 WES 项目数据,从而进行 DNAscope 分析查看实际的运行效率。

1. 测试项目使用配置

  • CPU:Intel(R) Xeon(R) Platinum 8358P CPU @ 2.60GHz,64 核心
  • 内存:512GB DDR4
  • 系统:Ubuntu 22.04.3 LTS

2. 分析结果评测

为了对流程准确率进行评测,我们分析了瓶中基因组核心家系标准品 HG002、HG003、HG004 的 100X MGI WES 的 PCR-free 建库数据集。将检测得到的结果和真集中的 ME 进行比较,计算准确率。

如下图所示,几乎无漏检的存在,假阳性也被控制在一个合理的区间。

  • TP:真阳结果,在样本最终 ME list 中被列出,同时也存在于真集的 ME list
  • FN:假阴结果,存在于真集中但是不在样本的最终 ME list,这暗示该位点在先证者数据中被漏检或者错检
  • FP:假阳结果,存在于样本的最终 ME list 但是不在真集中,这暗示该位点在先证者数据中就是假阳性或者在父母样本中漏检

3. Bam 质控统计

指标HG002_deduped.bamHG003_deduped.bamHG004_deduped.bam
[Total] Raw Reads (All reads)150386776128608638146149978
[Total] QC Fail reads000
[Total] Raw Data(Mb)18948.7316204.6918414.9
[Total] Paired Reads150386776128608638146149978
[Total] Mapped Reads149956595128273760145773372
[Total] Fraction of Mapped Reads99.71%99.74%99.74%
[Total] Mapped Data(Mb)18894.5316162.4918367.44
[Total] Fraction of Mapped Data(Mb)99.71%99.74%99.74%
[Total] Properly paired148818172127384880144716192
[Total] Fraction of Properly paired98.96%99.05%99.02%
[Total] Read and mate paired149708260128064082145529472
[Total] Fraction of Read and mate paired99.55%99.58%99.58%
[Total] Singletons248335209678243900
[Total] Read and mate map to diff chr322494263786345692
[Total] Read1751933886430431973074989
[Total] Read2751933886430431973074989
[Total] Read1(rmdup)713821166148132769338113
[Total] Read2(rmdup)712839396139399669239325
[Total] forward strand reads749636766411629572877727
[Total] backward strand reads749929196415746572895645
[Total] PCR duplicate reads729054053984377195934
[Total] Fraction of PCR duplicate reads4.86%4.21%4.94%
[Total] Map quality cutoff value202020
[Total] MapQuality above cutoff reads146608546125434718142355051
[Total] Fraction of MapQ reads in all reads97.49%97.53%97.40%
[Total] Fraction of MapQ reads in mapped reads97.77%97.79%97.66%
[Insert size] Average201.44203.27200.09
[Insert size] Median186188185
[Target] Target Reads1007414738532974395522567
[Target] Fraction of Target Reads in all reads66.99%66.35%65.36%
[Target] Fraction of Target Reads in mapped reads67.18%66.52%65.53%
[Target] Target Data(Mb)8967.527573.958507.73
[Target] Target Data Rmdup(Mb)8414.837159.037973.14
[Target] Fraction of Target Data in all data47.33%46.74%46.20%
[Target] Fraction of Target Data in mapped data47.46%46.86%46.32%
[Target] Len of region733363057333630573336305
[Target] Average depth122.28103.28116.01
[Target] Average depth(rmdup)114.7497.62108.72
[Target] Coverage (>0.2*(Average depth)x)51.23%51.34%51.27%
[Target] Coverage (>0.5*(Average depth)x)46.81%46.94%47.04%
[Target] Coverage (>0x)75.22%74.01%76.23%
[Target] Coverage (>=4x)60.26%59.12%60.84%
[Target] Coverage (>=10x)54.10%53.61%54.11%
[Target] Coverage (>=30x)50.45%49.83%50.34%
[Target] Coverage (>=100x)41.69%39.01%41.30%

4. 分析内存统计

步骤HG002HG003HG004
比对+排序内存(G)21.6921.6221.66
去重内存(G)1.821.811.86
统计 metrics 质控信息内存(G)0.30.280.29
DNAscope 变异检测内存(G)1.761.731.95
DNAModelApply 机器学习模型应用与变异过滤内存(G)3.443.443.44
GVCFtyper 变异检测内存(G)0.130.120.13

5. 分析时间统计

步骤一耗时如下所示:

步骤HG002HG003HG004
比对+排序时间(min)3.853.263.65
去重时间(min)0.720.490.56
统计 metrics 质控信息时间(min)0.280.270.28
DNAscope 变异检测时间(min)1.851.581.78
DNAModelApply 机器学习模型应用与变异过滤时间(min)1.281.181.38
GVCFtyper 变异检测时间(min)0.210.20.21
总时间(min)8.26.987.86

3 个样本一起做家系分析(步骤二到步骤八)共耗时 3.6 分钟。同时提交步骤 1,待其完成后再提交步骤 2 至步骤 8,全流程能在 12 分钟内完成 100X 的 WES 样本的家系分析,内存最大占用为 21.69 G。

目前,Sentieon 核心家系分析流程已集成至最新版 Sentieon 软件包,已授权用户可直接调用脚本运行;若您尚未成为 Sentieon 用户,欢迎后台联系试用。


Sentieon 软件介绍

Sentieon 为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于 BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard 等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升 WGS、WES、Panel、UMI、ctDNA、RNA 等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。

Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。

截至 2026 年 4 月份,Sentieon 已经在全球范围内为 1860+ 用户提供服务,用户处理超过 7400+ PB 数据量,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 1900 篇。此外,Sentieon 连续数年摘得了 PrecisionFDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。