前言
2025年4月17日,生信大牛李恒团队在预印本上发表成果:Efficient near telomere-to-telomere assembly of Nanopore Simplex reads。引起了一些同行关注,并推出了该项科服业务。研究开发了一种高效从头组装算法hifiasm(ONT),首次仅用高准确性ONT-sup数据(普通长度或超长)即实现端粒到端粒(T2T)基因组近完成图组装。
ONT only组装T2T基因组方案,性价比较高,我们已经有项目在做了。但由于审稿周期较长,发表的案例比较少,有些客户还在犹豫中。2026年2月4日,该算法正式在Nature见刊!这也给了科研人员的更多信心。如果有要发表动植物T2T基因组的老师,可联系我们:打破学术与产业鸿沟,做最懂生物育种的生信团队
背景与意义
现有技术的局限性
-
当前的近T2T组装方法(如Verkko和hifiasm (UL))都依赖ONT超长读长(≥100kb)
-
超长读长测序成本高昂,需要大量高分子量DNA(约40倍于标准ONT协议)
-
这使得超长读长很少用于临床样本或生物多样性项目
ONT simplex测序的挑战
-
ONT simplex读长具有更高的非随机、复发性测序错误率
-
现有HiFi组装算法假设测序错误是随机的,这一假设对ONT simplex数据不成立
-
复发性错误使得难以区分真实杂合变异与测序错误
hifiasm (ONT)算法
核心创新——基于相位的错误校正
-
利用长读长的相位信息:真实的杂合位点与附近杂合位点呈相位关系,而复发性测序错误则不然
-
采用动态规划算法进行联合相位分析和测序错误识别
-
考虑碱基质量分数,提高校正准确性
关键改进
-
动态规划聚类:通过兼容性矩阵将相互兼容的信息位点聚类,识别真实的基因组变异
-
错误过滤:过滤同源多聚体区域的潜在错误、链偏倚位点和低质量碱基
-
T2T组装策略:保留端粒序列,采用双单体型支架策略填补缺口
-
无需GPU:与HERRO等深度学习方法不同,该算法仅需CPU即可运行
图1 | ONT simplex读长的错误校正
主要结果
1. 人类基因组组装性能(标准ONT simplex读长)
| 样本 | 方法 | 运行时间 | T2T contigs | T2T scaffolds | Contig N50 (Mb) | | --- | --- | --- | --- | --- | --- | | HG001 | hifiasm (ONT) | 15.0h | 16/17 | 11/11 | 127.1/109.3 | | HG001 | Verkko+HERRO | 126.7h | 3/5 | 0/2 | 59.0/62.5 | | HG002 | hifiasm (ONT) | 8.4h | 15/17 | 7/15 | 131.5/143.8 | | HG002 | Verkko+HERRO | 103.1h | 3/2 | 0/0 | 52.3/46.0 |
-
计算效率:比Verkko+HERRO快约10倍,且无需高端GPU
-
组装质量:成功重建9-22条染色体的T2T组装,而Verkko+HERRO几乎无法产生完整的T2T contigs
-
连续性:contig N50显著优于Verkko+HERRO
2. 与PacBio HiFi比较
-
ONT组装显示出显著更高的连续性(更高的N50值和更多T2T contigs)
-
多拷贝基因保留率与HiFi组装相当
-
QV分数略低于HiFi(主要由于长同源多聚体区域的持续错误)
3. 超长读长组装
-
使用超长读长时,hifiasm (ONT)重建了41/46条(HG002)和44/46条(HG02818)染色体的T2T组装
-
性能超过使用相同数据的Verkko+HERRO,也超过结合ONT超长和PacBio HiFi的混合组装
4. 医学相关基因解析
-
成功解析了SMN1和SMN2基因对——这是脊髓性肌萎缩症(SMA)的关键基因,此前HiFi组装无法完全解析
-
使用标准ONT simplex读长即可实现,而Verkko+HERRO即使使用超长读长也无法解析母源单体型
图3 | HG002组装与HG002 T2T Q100参考基因组在SMN1和SMN2区域的比较
5. 组装准确性
-
与HG002 Q100参考基因组比较,hifiasm (ONT)产生的错误组装最少
-
无参考评估(Flagger和NucFlag)同样显示hifiasm (ONT)产生最准确的组装
图4 | 人类基因组组装中错误组装的评估
讨论
主要优势
-
成本效益:无需昂贵的超长测序即可实现T2T组装,使群体规模T2T组装和临床样本分析成为可能
-
计算效率:比现有方法快一个数量级,无需高端GPU,大幅降低计算门槛
-
数据利用:充分利用ONT simplex读长的长度优势,同时通过创新算法克服其错误模式
技术局限
-
长同源多聚体区域的高错误率仍是ONT读长的固有限制,需要额外的polishing步骤
-
与HiFi相比,相位切换和Hamming错误率略高
应用前景
-
使常规近T2T基因组组装在各类研究和临床环境中成为可能
-
特别适用于无法获得超长测序的临床样本
-
为精准医学和生物多样性研究提供了更可行的技术路径
软件可用性: hifiasm (ONT)作为开源软件(MIT许可证)发布在GitHub上:github.com/chhylp123/h…
这篇文章介绍了一种名为 hifiasm (ONT) 的新型基因组组装算法,该算法能够仅使用标准的 Oxford Nanopore Technologies (ONT) simplex 测序数据实现近端粒到端粒(near-T2T)的基因组组装,无需依赖成本高昂的超长读长(ultra-long reads)测序。
欢迎加入生信AI育种交流群(一群已满,请加二群,入群请备注“姓名-单位”,方便交流)~~~