关键词:长读长测序;分子诊断;精准医疗;
引言
神经发育障碍(NDDs)是异质性的疾病,会导致身体和智力的障碍。该疾病困扰着全球1-3%的儿童。
截至文章发表(2021),WGS和WES仍被认为是临床诊断和NDDs病因研究的强大工具。由于短读长测序技术仍难以明辨某些类型的变异,如重复变体、结构变体和移动元件插入;有大量NDDs病例仍无法找到具体的遗传变异原因。
研究团队使用Pacific Biosciences开发的(CCS/HiFi)技术检测并分析了6个NDD病例,成功在一个病例中发现CDKL5基因的L1介导插入;在另一个病例中发现多个可能影响7个蛋白质编码基因的结构变异。在检测过程中展示了CCS在低可映射区域覆盖度、重复区域分析以及变异检测方面的优势。由此证明CCS显著提高罕见遗传病相关变异的检测成功率。
本周的Sentieon文献解读专栏给大家带来的是2021年发表在Cell子刊,被引用高达31次的佳作;“如何通过HIFI长读长测序,攻破使用短读长测序难以明辨的NDDs疾病突变”。
浅析文章,给做分子诊断的老师们一些参考。
材料与方法学
数据来源
Samples: 6名先证者及父母共18人来源于一项由IRB监管、CSER联盟主导的关于NDDs的研究。(doi.org/10.1186/s13…
Source: North Alabama Children’s Specialists in Huntsville, AL, USA
图1 选择进行PacBio测序的先证者信息
ES/GS:外显子测序/基因组测序。P:先证者。D:父亲。M:母亲。F:女性。M:男性。C:白种人。AA:非裔美国人。ID:智力障碍。NP:未进行
研究方法
两种测序方式比较
(1)IGS测序(短读长测序)
6名先证者及他们的亲生父母参与了一项由IRB监管的旨在确定NDDs遗传原因的研究。6个家庭都在4-5年前做过IGS检测。具体步骤简述如下:
使用QIAGEN试剂盒分离全血DNA并送往HudsonAlpha Genomic Services Lab进行PCR扩增标准方案建库;
在Illumina HiSeqX上进行双端150bp测序,平均深度30X,80%以上碱基达到20x覆盖度;
在本研究中,使用DRAGEN 07.011.352.3.2.8b比对到hg38,并使用DRAGEN进行变异检测,6个三人家庭的联合基因分析由GATK3.8-1-0-gf15c1c3ef完成,SVs的检测由Delly(v0.6.01),CNVnator(v0.3.2),ERDS (v1.1), Manta(v1.1.1.)联合进行。然后用人类1000基因组计划(2015)、人群频率gnomAD数据库、 NDD公开发布的研究和一个未对外开放的SV数据库对个体SVs进行注释。
研究者合并了来自不同变体的属于同类且有50%以上相互重叠的SVs,<400kb长度且只被检测到一次的SVs变体则被舍弃。
使用MELT(v2.02)的MELT-SINGLE模型对MEIs进行检测。
所有突变的分析和解释都和之前一样以ACMG为标准。
在原始分析或在生成长读数据执行重新分析之后,使用IGS均没有一个先证者被鉴定出致病的(P),可疑致病的(LP)或意义不明确的(VUS)变体。 当然所有的三人家庭亲缘关系都得到了证实。
1-5先证者的IGS数据已经上传在dbGAP(phs001089)并且可用,6号先证者的数据未公开。
(2)CCS测序(长读长测序)
用加州Pacific Biosciences公司研发的CCS技术在PacBio Sequel II上进行长读测序,使用SMRTbell Template Prep Kit 1.0构建文库并在SageELF上调整大小。经过30h采集时长和2h预延伸,使用CCS3.4 算法或在该研究中产生的 CCS4 算法加工并产生原始数据。(将一条reads中高质量indels的数量与通过数量进行比较,证实了这些算法产生的结果是相似的。)
先证者们的平均覆盖深度为32x(25x44x),亲本的平均覆盖深度为16x(10x22x)。CCS测序读段比对到GRCh38.p13,使用Sentieon v.201808.07的bwa-mem对SNVs和indels进行校准, 用 DeepVariant v0.10进行变异检测并使用GLNexus v1.2.6进行联合基因分析。
使用pbmm2 1.0.0对SVs进行校准;并用pbsv v2.2.2检出SVs。
候选人新发SVs判定要求先证者基因型为0/1(杂合子),并且alt reads数量≥6;双亲基因型为0/0(纯合子), 0条alt reads,≥5条ref reads。
图2 Sentieon的作用
基因组装
针对4号先证者,团队使用几种策略对其测出的44x数据进行组装。组装使用 canu(v1.8),Falcon unzip(falcon-kit 1.8.1),HiCanu(hicanu_rc +325 changes),和hifiasm(v0.5-dirty-r247)。
其中Hifiasm用于产生两个组装结果。
首先使用默认参数,然后使用Racon(v1.4.10)对contigs进行2轮纠错。
其次,使用相同的输入CCS reads构建三人集组装,以及从36x父本Illumina文库和37x母本Illumina文库生成的kmers(排除单身者)。kmers使用yak(r55)生成,使用运行hifiasm trio组件的建议参数(kmer大小= 31,Bloom过滤器大小为2 * * 37)。母组件和父组件经过了两轮Racon(v1.4.10)纠错。以同样的方式为剩余的先证者构建了三人集组装。单个亲属的组装也在hifiasm(v0.5-dirty-r247)使用默认参数构建。最终的contigs都经过了两轮Racon(v1.4.10)纠错。并使用Gepard创建序列差异的点图。
质控
使用bcftools和rtg-tools进行SNV和indel一致性分析。“High-quality de novo”变异被定义为常染色体上的PASS变异,它们是总等位基因深度(DP)≥7,基因型质量(GQ)≥35的双等位基因。
重复序列和低可映射性区域分析
分析以往研究过的35个基因低复杂度重复区域bed文件,识别出242,222个难以映射的区域,平均长度为411bp。使用bedtools进行深度计算,以评估数据质量。
CDKL5 cDNA测序
研究团队从全血中提取RNA,转录生成cDNA。针对CDKL5基因设计特定引物进行扩增,最后进行Sanger测序验证。
验证实验
为验证准确性,采用多层次验证策略。通过DNA PCR验证,使用家系三人的DNA样本扩增断点连接区域,进行Sanger测序。对DGKB/MLLT3进行qPCR分析,使用两个TaqMan探针进行表达定量。并通过比较目标样本与对照组的CT值差异,计算相对表达水平。
研究结果
1. CCS与IGS在新发变异检测中的性能对比研究
比较个体在GIAB高可信区域中,CCS与IGS变异检测总体一致性达94.63%,其中SNVs一致性高达96.88%,明显优于indels的75.96%。
在高质控标准下,CCS检测出的新发SNVs数量比IGS多,检测的indels数量少于IGS。IGS的新发indel数量远高于生物学预期,很可能多数是假阳性检测。CCS在常染色体上中孟德尔错误率为0.18%,低于IGS的0.34%。凸显了CCS在SNV检测中准确度更高。
每个家系平均检测到56,000个SVs,而先证者平均有59个候选新发SVs。通过trio-binned hifiasm构建从头组装,先证者获得平均N50为35.4 Mb的高质量基因组。
图3 CCS和IGS在"GIAB"高可信区域内外的一致性比较
2. CCS与IGS在简单重复区域的变异性能比对
通过比较CCS和使用PCR扩增的IGS在简单重复区域的检测能力,来评估CCS的性能。
研究发现,在FMR1基因5'UTR区域的CGG三核苷酸重复序列分析中,CCS检测到16个样本存在6-105 bp的插入变异。变异的长度多以3的倍数出现,目前尚未确定是否代表真实的变异或测序技术的局限性所导致的。
对34个其他致病重复区域的分析表明,在mapQ=60的跨区域中,97%的区域在所有先证者中至少有10个CCS读段覆盖,而IGS仅覆盖11%的区域。将分析限制在<100 bp的区域内,IGS的覆盖率也仅达到14%。总体而言,CCS数据的平均覆盖度显著高于IGS。
还比较CCS和IGS在基因组低可映射性区域的覆盖度,结果发现CCS的覆盖率依旧比IGS高,且CCS比IGS多产生了两倍的蛋白质变异数量。为评估蛋白质变异检测的准确性,对57个功能缺失变异进行可视化,分类为TP、FP、TN、FN或UN。结果表明CCS全部正确检测,IGS中存在未检测到的变异,彰显出CCS在复杂基因组区域变异检测方面的优越性。
图4 每个先证者的CCS和IGS中跨越TRE的读段计数(部分内容)
3. CCS和IGS在MEIs检测中的性能评估
研究使用MELT和pbsv在IGS和CCS数据对MEIs进行比较分析,显示CCS对MEIs的准确度要比IGS高。
在严格质控下,IGS能检测到82个候选新发Alu插入,远超预期值。这些Alu插入是遗传的,若改变过滤条件以提高敏感性,会导致假阳性率的提高。
使用CCS和严格质控过滤,仅能识别出6个候选新发Alu MEIs。最终确定4个候选新发Alu MEIs,其中1个为真实的新发插入, 另外3个可能由于父母样本测序深度不足而被遗漏。
4. 临床案例分析
CCS在先证者6的CDKL5基因中检测到新发结构变异,考虑到CDKL5与早期婴儿癫痫性脑病2型的关联,以及患者表现出的症状,CDKL5被认为是患者的致病候选基因。
三重基因组从头组装分析发现,在CDKL5的内含子中识别到一个6,993 bp的杂合插入,位于父源等位基因上,但发现存在嵌合现象。CDKL5的插入序列由一个5'截短的L1HS移动元件、PPEF1基因内含子的序列,以及包含CDKL5外显子3重复的目标位点重复序列组成。
RT-PCR显示,除了正常的240 bp转录本外,先证者还存在包含重复外显子3的275 bp转录本,异常剪接会导致移码突变,从而引起CDKL5蛋白功能的丧失。
图5 CDKL5基因外显子3的重复出现在先证者的部分CDKL5转录本中
(A) 使用特异于CDKL5 cDNA外显子2-5的引物进行RT-PCR,在先证者(P)、父亲(D)和母亲(M)中产生240 bp扩增子。一个额外的275 bp扩增子仅在先证者中出现(星号标记)。
(B) 对先证者的两个扩增子进行Sanger测序证实,240 bp扩增子包含正常的预期序列,而上方275 bp条带中包含重复的外显子3。这预计会导致移码突变(红圈)和下游终止密码子,p.Thr35ProfsTer52。黄色轮廓框为外显子3序列;橙色轮廓框为重复的外显子3序列。
2)大型新发结构变异
研究团队在先证者4中发现多个影响染色体6、7和9的复杂新发结构变异。通过三重基因组分类从头组装分析,在染色体6中检测到大型臂间倒位。在该染色体上的结构变异涉及到10个断点,可能破坏六个基因的功能,但这些基因尚未与神经发育疾病建立关联。
在7号和9号染色体上,识别出涉及五个断点的结构变异,包括一个倒位和两个易位,均位于父源等位基因上,且不存在嵌合现象。易位和倒位可能导致DGKB和MLLT3两个基因的功能受损。 通过qPCR分析证实,先证者的MLLT3基因表达水平较其他个体显著降低35-45%。
图6 先证者4具有染色体7和9之间的两个插入易位和一个倒位
(A) 显示先证者4中鉴定的染色体7和9断点注释的染色体示意图。示意图来自NCBI基因组装饰页面。
(B) 先证者母源(粉色框)和父源(蓝色框)染色体7和9的p臂示意图。先证者的母源等位基因与参考序列匹配。父源序列表示易位(7A;9A和7B;9B)和倒位(7A;7C)的结果,显示了片段大小。父源der9p中的红色片段相对于hg38参考序列是倒置的。
(C) 三个父源重叠群与参考染色体7和9的比对确定了两个插入易位。关于蓝色和红色框区域,请参见原文中的图S6和补充方法。
5. CCS与IGS在SV检测中的比较
研究对比CCS和IGS在结构变异检测中的差异。发现CCS检测到的疾病相关变异在IGS中均未被识别。 研究团队通过分析原始变异调用和IGS读数,来探究未被检测到的原因。
在CDKL5基因中MELT未能检测到L1介导的插入,因为存在非L1序列。虽然Delly和Manta检测到一个230 kb的重复事件,但最终发现是错误调用了。
对于先证者4的复杂断点,尽管Manta确实检测到了大部分断点,但分析流程要求至少两个工具进行验证,使得这些发现未被纳入最终结果。
Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。 截至 2023 年 3 月份,Sentieon 已经在全球范围内为 1300+用户提供服务,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 700 篇。此外,Sentieon 连续数年摘得了 Precision FDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。
研究讨论
- CCS长读长测序的优势
在变异检测中,CCS能检测出更全面和准确的结果,能更好地检测简单重复扩增和低可映射区域的变异,还能清晰地显示IGS遗漏的复杂结构变异。
- 从头变异检测的能力
CCS能够准确识别真实的从头变异,而IGS检测到的特有从头变异多为假阳性,表明了CCS在变异鉴定方面具有更高的可靠性。
- 长读长测序的应用前景
在尚未解决的疾病病例中,长读长测序显示出较高的诊断潜力,虽然目前面临着成本和DNA输入要求等问题,但都在逐步进行改善。
- 技术发展趋势预测
随着技术的进步,长读长测序在成本和DNA需求方面已经有了显著的改善,计算和分析方法也在不断完善,为罕见疾病的诊断提供了新工具。
研究总结
该研究采用CCS长读长测序技术进行变异检测,为未确诊疾病提供了新的诊断思路。研究对6例神经发育障碍(NDD)患者进行分析,成功发现2例可能致病性变异。结果表明,CCS技术在低可映射区域覆盖度、重复区域分析以及变异检测方面均显示出优于IGS的性能,为CCS技术在临床诊断中的应用提供了数据支撑。
文献链接:doi.org/10.1016/j.x…
Sentieon软件介绍
Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。
Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。
截至2023年3月份,Sentieon已经在全球范围内为1300+用户提供服务,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过700篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。