在作物育种中,解析基因型与表型之间的关系是实现精准分子育种的核心挑战。然而,复杂性状往往由众多微效基因控制,传统统计模型和现有深度学习方法在捕捉长程基因组依赖、处理超高维数据以及提供生物学解释方面仍存在明显短板。
近日,中国农科院团队在Nature Communications在线发表了一项突破性研究——GP-WAITER(Genome-Phenotype prediction using Weighted self-Attention TransformER)。该模型创新性地将GWAS衍生的SNP权重嵌入混合CNN-Transformer架构,在大豆、玉米、水稻和小麦等六大数据集中全面超越七种主流基因组预测方法,预测准确率最高提升77.5%,MSE降低高达95.9%,计算效率提升1.8-2.4倍。更重要的是,GP-WAITER通过SHAP分析实现了模型的生物学可解释性,成功定位到与油脂、异黄酮等重要营养品质相关的关键基因变异。
GS亟待突破“黑箱”与“长程依赖”困境
基因组选择(GS)已成为现代作物育种的核心驱动力。从传统的rrBLUP线性模型到机器学习(SVR、XGBoost、LightGBM),再到深度学习(CNN、DNNGP、Cropformer),各类方法不断涌现。然而,现有模型普遍面临三大瓶颈:
-
长程依赖捕获不足:卷积运算天然存在感受野限制,难以建模基因组中远距离SNP之间的互作关系;
-
过度依赖显著SNP:许多方法仅选用GWAS显著位点,丢弃了大量微效多基因信息,限制了对复杂性状遗传架构的全面捕捉;
-
可解释性差:Transformer等强表达模型在作物基因组中的应用仍较少,且大多缺乏生物学意义上的解释能力。
针对上述挑战,研究团队提出了GP-WAITER——一个融合GWAS权重信息与混合注意力机制的深度学习框架,旨在实现高精度、高效率、高可解释的基因组预测。
加权嵌入 + CNN局部特征 + Transformer全局注意力
GP-WAITER的架构设计包含三大核心模块(图1):
1. 加权嵌入块(Weighted Embedding Block)
-
输入:全基因组SNP基因型(二倍体编码:1/-1/0)和对应的GWAS权重(
-log10(p)变换后) -
操作:将SNP序列token化后与权重向量进行逐元素乘(Hadamard积),使每个位点的特征表达量与其表型贡献度成正比
-
输出:一个四维张量,随后送入CNN层
2. 混合编码器(Hybrid CNN-Transformer)
-
CNN部分:多层1D/2D卷积 + BatchNorm + tanh激活,提取局部模体(如单倍型块、上位性互作)
-
Transformer部分:3层编码器,每层包含27头自注意力、LayerNorm、残差连接和GELU前馈网络,建模全基因组范围的长程依赖
-
创新点:将基因组数据重排为2D格式(
H×W),显著降低序列长度带来的计算复杂度
3. 预测块(Predictor Block)
-
由全连接层、1D卷积层和tanh激活组成,逐步降维并输出连续表型值
-
损失函数:MSE;优化器:Adam(lr=0.001);训练轮次:200;早停策略
4. 可解释性分析
-
采用SHAP(SHapley Additive exPlanations) 计算每个SNP对预测结果的边际贡献
-
结合GWAS、单倍型分析和GO富集,验证模型识别出的关键位点的生物学功能
核心结果全面超越SOTA
研究团队在六个公开数据集(大豆×3、玉米、水稻、小麦)上,将GP-WAITER与rrBLUP、SVR、XGBoost、LightGBM、CNN、DNNGP、Cropformer等七种模型进行了系统比较。
1. 预测精度:最高提升77.5%
-
大豆1861群体(8个营养品质 × 5个环境):GP-WAITER平均准确率(Pearson r)达0.64,比最优基线模型提升8.9%~77.5%(绝对增幅4.81%~19.54%)
-
大豆192 RIL群体:在油脂、蛋白、异黄酮、叶酸四个性状上,相比rrBLUP提升40.89%~103.09%
-
玉米、水稻、小麦:同样获得一致性的显著提升(图2)
-
误差指标:MSE降低63.9%~95.9%,RMSE降低25.5%~57%,MAE降低36.7%~62.5%
2. 计算效率:大尺度数据优势明显
-
在大豆14460数据集(约574万数据点) 上:
-
GP-WAITER训练耗时4216秒,相比DNNGP(7552秒)加速1.8倍,相比Cropformer(10049秒)加速2.4倍
-
GPU峰值内存仅536 MB,而Cropformer和DNNGP分别高达1134 MB和1668 MB
-
这一效率得益于创新的2D张量重塑和BN+残差设计,使得单张RTX 3080即可轻松处理百万级SNP数据
3. 可解释性发现:从“黑箱”到“透明”
-
SHAP top-20 SNP中,29个基因富集到与性状直接相关的生物学通路(如维生素E代谢、类黄酮合成、光响应等)
-
示例1:Gm05.41854422(MFT基因错义突变)——在总异黄酮预测中排名第一,同时也是油脂、油酸、生育酚的重要特征。单倍型分析证实,MFT-AA与MFT-CC两组在四个性状上均存在极显著差异(p < 10⁻⁴⁹),验证了该位点的多效性。
-
示例2:Gm08.8472159(查尔酮合成酶基因上游变异)——SHAP排名第五,但传统GWAS未能检测到(效应小或上位性互作),体现了GP-WAITER在捕捉微弱信号方面的独特优势。
4. 消融实验与影响因素分析
-
加权信息的作用:GP-WAITER(加权)准确率0.64 vs GP-AITER(无权重)0.59,提升7.9%,尤其在叶酸、总糖、类胡萝卜素上增幅达12.9%~15.1%
-
遗传力的影响:遗传力与预测准确率呈正相关(R²=0.58)
-
基因组区域贡献:调控区+基因区SNP贡献了>90%的高SHAP值变异,仅用全基因组SNP预测效果最佳,仅用基因区SNP效果最差
-
多环境加权扩展:整合5个环境的GWAS权重后,多环境预测准确率从0.64提升至0.75
开启可解释精准育种
GP-WAITER的核心创新可概括为:
-
加权嵌入机制:将GWAS先验信息以连续权重形式融入模型,保留全基因组所有变异,避免信息丢失;
-
多头自注意力:在不依赖循环或卷积结构的前提下,高效建模超长基因组序列中的远程互作;
-
CNN+Transformer混合:同时捕获局部模体和全局依赖,兼顾多样化的群体结构(RIL、自然群体等);
-
端到端可解释:SHAP分析使模型不仅预测准确,还能直接输出驱动预测的关键位点及其效应方向。
该模型将传统的“黑箱”预测转变为生物学可解释的智能推断,为分子育种中的亲本选配、杂交组合设计、优良品种选育提供了强有力的计算工具。
研究团队同时指出,未来可在以下方向进一步突破:
-
实时自适应模型:结合稀疏Transformer,实现持续学习;
-
多组学融合:整合转录组、表观组、代谢组等多维数据;
-
发现-验证闭环:将计算预测与基因编辑/功能验证相结合,加速候选基因的生物学确认。
欢迎加入生信AI育种交流群,一群已满,请添加小编微信拉你加入二群,请备注“姓名-单位”,方便交流~~~