李恒Nature见刊!hifiasm(ONT only)实现T2T基因组组装

0 阅读5分钟

前言

2025年4月17日,生信大牛李恒团队在预印本上发表成果:Efficient near telomere-to-telomere assembly of Nanopore Simplex reads。引起了一些同行关注,并推出了该项科服业务。研究开发了一种高效从头组装算法hifiasm(ONT),首次仅用高准确性ONT-sup数据(普通长度或超长)即实现端粒到端粒(T2T)基因组近完成图组装。

ONT only组装T2T基因组方案,性价比较高,我们已经有项目在做了。但由于审稿周期较长,发表的案例比较少,有些客户还在犹豫中。2026年2月4日,该算法正式在Nature见刊!这也给了科研人员的更多信心。如果有要发表动植物T2T基因组的老师,可联系我们:打破学术与产业鸿沟,做最懂生物育种的生信团队

图片

背景与意义

现有技术的局限性

  • 当前的近T2T组装方法(如Verkko和hifiasm (UL))都依赖ONT超长读长(≥100kb)

  • 超长读长测序成本高昂,需要大量高分子量DNA(约40倍于标准ONT协议)

  • 这使得超长读长很少用于临床样本或生物多样性项目

ONT simplex测序的挑战

  • ONT simplex读长具有更高的非随机、复发性测序错误率

  • 现有HiFi组装算法假设测序错误是随机的,这一假设对ONT simplex数据不成立

  • 复发性错误使得难以区分真实杂合变异与测序错误

hifiasm (ONT)算法

核心创新——基于相位的错误校正

  • 利用长读长的相位信息:真实的杂合位点与附近杂合位点呈相位关系,而复发性测序错误则不然

  • 采用动态规划算法进行联合相位分析和测序错误识别

  • 考虑碱基质量分数,提高校正准确性

关键改进

  1. 动态规划聚类:通过兼容性矩阵将相互兼容的信息位点聚类,识别真实的基因组变异

  2. 错误过滤:过滤同源多聚体区域的潜在错误、链偏倚位点和低质量碱基

  3. T2T组装策略:保留端粒序列,采用双单体型支架策略填补缺口

  4. 无需GPU:与HERRO等深度学习方法不同,该算法仅需CPU即可运行

图1 | ONT simplex读长的错误校正 图1 | ONT simplex读长的错误校正

主要结果

1. 人类基因组组装性能(标准ONT simplex读长)

| 样本 | 方法 | 运行时间 | T2T contigs | T2T scaffolds | Contig N50 (Mb) | | --- | --- | --- | --- | --- | --- | | HG001 | hifiasm (ONT) | 15.0h | 16/17 | 11/11 | 127.1/109.3 | | HG001 | Verkko+HERRO | 126.7h | 3/5 | 0/2 | 59.0/62.5 | | HG002 | hifiasm (ONT) | 8.4h | 15/17 | 7/15 | 131.5/143.8 | | HG002 | Verkko+HERRO | 103.1h | 3/2 | 0/0 | 52.3/46.0 |

  • 计算效率:比Verkko+HERRO快约10倍,且无需高端GPU

  • 组装质量:成功重建9-22条染色体的T2T组装,而Verkko+HERRO几乎无法产生完整的T2T contigs

  • 连续性:contig N50显著优于Verkko+HERRO

图2 | 使用ONT超长读长的组装结果2. 与PacBio HiFi比较

  • ONT组装显示出显著更高的连续性(更高的N50值和更多T2T contigs)

  • 多拷贝基因保留率与HiFi组装相当

  • QV分数略低于HiFi(主要由于长同源多聚体区域的持续错误)

3. 超长读长组装

  • 使用超长读长时,hifiasm (ONT)重建了41/46条(HG002)和44/46条(HG02818)染色体的T2T组装

  • 性能超过使用相同数据的Verkko+HERRO,也超过结合ONT超长和PacBio HiFi的混合组装

4. 医学相关基因解析

  • 成功解析了SMN1和SMN2基因对——这是脊髓性肌萎缩症(SMA)的关键基因,此前HiFi组装无法完全解析

  • 使用标准ONT simplex读长即可实现,而Verkko+HERRO即使使用超长读长也无法解析母源单体型

图3 | HG002组装与HG002 T2T Q100参考基因组在SMN1和SMN2区域的比较 图3 | HG002组装与HG002 T2T Q100参考基因组在SMN1和SMN2区域的比较

5. 组装准确性

  • 与HG002 Q100参考基因组比较,hifiasm (ONT)产生的错误组装最少

  • 无参考评估(Flagger和NucFlag)同样显示hifiasm (ONT)产生最准确的组装

图4 | 人类基因组组装中错误组装的评估 图4 | 人类基因组组装中错误组装的评估

讨论

主要优势

  1. 成本效益:无需昂贵的超长测序即可实现T2T组装,使群体规模T2T组装和临床样本分析成为可能

  2. 计算效率:比现有方法快一个数量级,无需高端GPU,大幅降低计算门槛

  3. 数据利用:充分利用ONT simplex读长的长度优势,同时通过创新算法克服其错误模式

技术局限

  • 长同源多聚体区域的高错误率仍是ONT读长的固有限制,需要额外的polishing步骤

  • 与HiFi相比,相位切换和Hamming错误率略高

应用前景

  • 使常规近T2T基因组组装在各类研究和临床环境中成为可能

  • 特别适用于无法获得超长测序的临床样本

  • 为精准医学和生物多样性研究提供了更可行的技术路径

软件可用性: hifiasm (ONT)作为开源软件(MIT许可证)发布在GitHub上:github.com/chhylp123/h…

这篇文章介绍了一种名为 hifiasm (ONT) 的新型基因组组装算法,该算法能够仅使用标准的 Oxford Nanopore Technologies (ONT) simplex 测序数据实现近端粒到端粒(near-T2T)的基因组组装,无需依赖成本高昂的超长读长(ultra-long reads)测序。

图片

欢迎加入生信AI育种交流群(一群已满,请加二群,入群请备注“姓名-单位”,方便交流)~~~

图片