融合GWAS权重与Transformer架构(GP-WAITER),作物复杂性状预测准确率提升77.5%

0 阅读7分钟

在作物育种中,解析基因型与表型之间的关系是实现精准分子育种的核心挑战。然而,复杂性状往往由众多微效基因控制,传统统计模型和现有深度学习方法在捕捉长程基因组依赖、处理超高维数据以及提供生物学解释方面仍存在明显短板。

近日,中国农科院团队在Nature Communications在线发表了一项突破性研究——GP-WAITER(Genome-Phenotype prediction using Weighted self-Attention TransformER)。该模型创新性地将GWAS衍生的SNP权重嵌入混合CNN-Transformer架构,在大豆、玉米、水稻和小麦等六大数据集中全面超越七种主流基因组预测方法,预测准确率最高提升77.5%,MSE降低高达95.9%,计算效率提升1.8-2.4倍。更重要的是,GP-WAITER通过SHAP分析实现了模型的生物学可解释性,成功定位到与油脂、异黄酮等重要营养品质相关的关键基因变异。

图片

GS亟待突破“黑箱”与“长程依赖”困境

基因组选择(GS)已成为现代作物育种的核心驱动力。从传统的rrBLUP线性模型到机器学习(SVR、XGBoost、LightGBM),再到深度学习(CNN、DNNGP、Cropformer),各类方法不断涌现。然而,现有模型普遍面临三大瓶颈:

  1. 长程依赖捕获不足:卷积运算天然存在感受野限制,难以建模基因组中远距离SNP之间的互作关系;

  2. 过度依赖显著SNP:许多方法仅选用GWAS显著位点,丢弃了大量微效多基因信息,限制了对复杂性状遗传架构的全面捕捉;

  3. 可解释性差:Transformer等强表达模型在作物基因组中的应用仍较少,且大多缺乏生物学意义上的解释能力。

针对上述挑战,研究团队提出了GP-WAITER——一个融合GWAS权重信息与混合注意力机制的深度学习框架,旨在实现高精度、高效率、高可解释的基因组预测。

加权嵌入 + CNN局部特征 + Transformer全局注意力

GP-WAITER的架构设计包含三大核心模块(图1):

1. 加权嵌入块(Weighted Embedding Block)

  • 输入:全基因组SNP基因型(二倍体编码:1/-1/0)和对应的GWAS权重(-log10(p) 变换后)

  • 操作:将SNP序列token化后与权重向量进行逐元素乘(Hadamard积),使每个位点的特征表达量与其表型贡献度成正比

  • 输出:一个四维张量,随后送入CNN层

2. 混合编码器(Hybrid CNN-Transformer)

  • CNN部分:多层1D/2D卷积 + BatchNorm + tanh激活,提取局部模体(如单倍型块、上位性互作)

  • Transformer部分:3层编码器,每层包含27头自注意力、LayerNorm、残差连接和GELU前馈网络,建模全基因组范围的长程依赖

  • 创新点:将基因组数据重排为2D格式(H×W),显著降低序列长度带来的计算复杂度

3. 预测块(Predictor Block)

  • 由全连接层、1D卷积层和tanh激活组成,逐步降维并输出连续表型值

  • 损失函数:MSE;优化器:Adam(lr=0.001);训练轮次:200;早停策略

4. 可解释性分析

  • 采用SHAP(SHapley Additive exPlanations) 计算每个SNP对预测结果的边际贡献

  • 结合GWAS、单倍型分析和GO富集,验证模型识别出的关键位点的生物学功能

图片

核心结果全面超越SOTA

研究团队在六个公开数据集(大豆×3、玉米、水稻、小麦)上,将GP-WAITER与rrBLUP、SVR、XGBoost、LightGBM、CNN、DNNGP、Cropformer等七种模型进行了系统比较。

1. 预测精度:最高提升77.5%

  • 大豆1861群体(8个营养品质 × 5个环境):GP-WAITER平均准确率(Pearson r)达0.64,比最优基线模型提升8.9%~77.5%(绝对增幅4.81%~19.54%)

  • 大豆192 RIL群体:在油脂、蛋白、异黄酮、叶酸四个性状上,相比rrBLUP提升40.89%~103.09%

  • 玉米、水稻、小麦:同样获得一致性的显著提升(图2)

  • 误差指标:MSE降低63.9%~95.9%,RMSE降低25.5%~57%,MAE降低36.7%~62.5%

图片

2. 计算效率:大尺度数据优势明显

  • 大豆14460数据集(约574万数据点) 上:

  • GP-WAITER训练耗时4216秒,相比DNNGP(7552秒)加速1.8倍,相比Cropformer(10049秒)加速2.4倍

  • GPU峰值内存仅536 MB,而Cropformer和DNNGP分别高达1134 MB和1668 MB

  • 这一效率得益于创新的2D张量重塑和BN+残差设计,使得单张RTX 3080即可轻松处理百万级SNP数据

3. 可解释性发现:从“黑箱”到“透明”

  • SHAP top-20 SNP中,29个基因富集到与性状直接相关的生物学通路(如维生素E代谢、类黄酮合成、光响应等)

  • 示例1:Gm05.41854422(MFT基因错义突变)——在总异黄酮预测中排名第一,同时也是油脂、油酸、生育酚的重要特征。单倍型分析证实,MFT-AA与MFT-CC两组在四个性状上均存在极显著差异(p < 10⁻⁴⁹),验证了该位点的多效性。

  • 示例2:Gm08.8472159(查尔酮合成酶基因上游变异)——SHAP排名第五,但传统GWAS未能检测到(效应小或上位性互作),体现了GP-WAITER在捕捉微弱信号方面的独特优势。

图片

4. 消融实验与影响因素分析

  • 加权信息的作用:GP-WAITER(加权)准确率0.64 vs GP-AITER(无权重)0.59,提升7.9%,尤其在叶酸、总糖、类胡萝卜素上增幅达12.9%~15.1%

  • 遗传力的影响:遗传力与预测准确率呈正相关(R²=0.58)

  • 基因组区域贡献:调控区+基因区SNP贡献了>90%的高SHAP值变异,仅用全基因组SNP预测效果最佳,仅用基因区SNP效果最差

  • 多环境加权扩展:整合5个环境的GWAS权重后,多环境预测准确率从0.64提升至0.75

图片

开启可解释精准育种

GP-WAITER的核心创新可概括为:

  1. 加权嵌入机制:将GWAS先验信息以连续权重形式融入模型,保留全基因组所有变异,避免信息丢失;

  2. 多头自注意力:在不依赖循环或卷积结构的前提下,高效建模超长基因组序列中的远程互作;

  3. CNN+Transformer混合:同时捕获局部模体和全局依赖,兼顾多样化的群体结构(RIL、自然群体等);

  4. 端到端可解释:SHAP分析使模型不仅预测准确,还能直接输出驱动预测的关键位点及其效应方向。

该模型将传统的“黑箱”预测转变为生物学可解释的智能推断,为分子育种中的亲本选配、杂交组合设计、优良品种选育提供了强有力的计算工具。

研究团队同时指出,未来可在以下方向进一步突破:

  • 实时自适应模型:结合稀疏Transformer,实现持续学习;

  • 多组学融合:整合转录组、表观组、代谢组等多维数据;

  • 发现-验证闭环:将计算预测与基因编辑/功能验证相结合,加速候选基因的生物学确认。

数据与代码:github.com/snowo-w/GP-… | zenodo.org/records/187…

让生信与AI服务于育种——关于米源生物

图片

欢迎加入生信AI育种交流群,一群已满,请添加小编微信拉你加入二群,请备注“姓名-单位”,方便交流~~~

图片

【项目案例】7个主流基因组选择(GS)算法,直接套用你的数据发表文章

测序进入百元时代!

设计育种系列课程——开启“育种5.0”时代的钥匙!