李恒Nature见刊！hifiasm（ONT only）实现T2T基因组组装前言 2025年4月17日，生信大牛李恒团队

前言

2025年4月17日，生信大牛李恒团队在预印本上发表成果：Efficient near telomere-to-telomere assembly of Nanopore Simplex reads。引起了一些同行关注，并推出了该项科服业务。研究开发了一种高效从头组装算法hifiasm（ONT），首次仅用高准确性ONT-sup数据（普通长度或超长）即实现端粒到端粒（T2T）基因组近完成图组装。

ONT only组装T2T基因组方案，性价比较高，我们已经有项目在做了。但由于审稿周期较长，发表的案例比较少，有些客户还在犹豫中。2026年2月4日，该算法正式在Nature见刊！这也给了科研人员的更多信心。如果有要发表动植物T2T基因组的老师，可联系我们：打破学术与产业鸿沟，做最懂生物育种的生信团队

背景与意义

现有技术的局限性

当前的近T2T组装方法（如Verkko和hifiasm (UL)）都依赖ONT超长读长（≥100kb）
超长读长测序成本高昂，需要大量高分子量DNA（约40倍于标准ONT协议）
这使得超长读长很少用于临床样本或生物多样性项目

ONT simplex测序的挑战

ONT simplex读长具有更高的非随机、复发性测序错误率
现有HiFi组装算法假设测序错误是随机的，这一假设对ONT simplex数据不成立
复发性错误使得难以区分真实杂合变异与测序错误

hifiasm (ONT)算法

核心创新——基于相位的错误校正

利用长读长的相位信息：真实的杂合位点与附近杂合位点呈相位关系，而复发性测序错误则不然
采用动态规划算法进行联合相位分析和测序错误识别
考虑碱基质量分数，提高校正准确性

关键改进

动态规划聚类：通过兼容性矩阵将相互兼容的信息位点聚类，识别真实的基因组变异
错误过滤：过滤同源多聚体区域的潜在错误、链偏倚位点和低质量碱基
T2T组装策略：保留端粒序列，采用双单体型支架策略填补缺口
无需GPU：与HERRO等深度学习方法不同，该算法仅需CPU即可运行

图1 | ONT simplex读长的错误校正

主要结果

1. 人类基因组组装性能（标准ONT simplex读长）

| 样本 | 方法 | 运行时间 | T2T contigs | T2T scaffolds | Contig N50 (Mb) | | --- | --- | --- | --- | --- | --- | | HG001 | hifiasm (ONT) | 15.0h | 16/17 | 11/11 | 127.1/109.3 | | HG001 | Verkko+HERRO | 126.7h | 3/5 | 0/2 | 59.0/62.5 | | HG002 | hifiasm (ONT) | 8.4h | 15/17 | 7/15 | 131.5/143.8 | | HG002 | Verkko+HERRO | 103.1h | 3/2 | 0/0 | 52.3/46.0 |

计算效率：比Verkko+HERRO快约10倍，且无需高端GPU
组装质量：成功重建9-22条染色体的T2T组装，而Verkko+HERRO几乎无法产生完整的T2T contigs
连续性：contig N50显著优于Verkko+HERRO

图2 | 使用ONT超长读长的组装结果 2. 与PacBio HiFi比较

ONT组装显示出显著更高的连续性（更高的N50值和更多T2T contigs）
多拷贝基因保留率与HiFi组装相当
QV分数略低于HiFi（主要由于长同源多聚体区域的持续错误）

3. 超长读长组装

使用超长读长时，hifiasm (ONT)重建了41/46条（HG002）和44/46条（HG02818）染色体的T2T组装
性能超过使用相同数据的Verkko+HERRO，也超过结合ONT超长和PacBio HiFi的混合组装

4. 医学相关基因解析

成功解析了SMN1和SMN2基因对——这是脊髓性肌萎缩症（SMA）的关键基因，此前HiFi组装无法完全解析
使用标准ONT simplex读长即可实现，而Verkko+HERRO即使使用超长读长也无法解析母源单体型

图3 | HG002组装与HG002 T2T Q100参考基因组在SMN1和SMN2区域的比较

5. 组装准确性

与HG002 Q100参考基因组比较，hifiasm (ONT)产生的错误组装最少
无参考评估（Flagger和NucFlag）同样显示hifiasm (ONT)产生最准确的组装

图4 | 人类基因组组装中错误组装的评估

讨论

主要优势

成本效益：无需昂贵的超长测序即可实现T2T组装，使群体规模T2T组装和临床样本分析成为可能
计算效率：比现有方法快一个数量级，无需高端GPU，大幅降低计算门槛
数据利用：充分利用ONT simplex读长的长度优势，同时通过创新算法克服其错误模式

技术局限

长同源多聚体区域的高错误率仍是ONT读长的固有限制，需要额外的polishing步骤
与HiFi相比，相位切换和Hamming错误率略高

应用前景

使常规近T2T基因组组装在各类研究和临床环境中成为可能
特别适用于无法获得超长测序的临床样本
为精准医学和生物多样性研究提供了更可行的技术路径

软件可用性： hifiasm (ONT)作为开源软件（MIT许可证）发布在GitHub上：github.com/chhylp123/h…

这篇文章介绍了一种名为 hifiasm (ONT) 的新型基因组组装算法，该算法能够仅使用标准的 Oxford Nanopore Technologies (ONT) simplex 测序数据实现近端粒到端粒（near-T2T）的基因组组装，无需依赖成本高昂的超长读长（ultra-long reads）测序。