融合GWAS权重与Transformer架构（GP-WAITER），作物复杂性状预测准确率提升77.5%在作物育种中，解

在作物育种中，解析基因型与表型之间的关系是实现精准分子育种的核心挑战。然而，复杂性状往往由众多微效基因控制，传统统计模型和现有深度学习方法在捕捉长程基因组依赖、处理超高维数据以及提供生物学解释方面仍存在明显短板。

近日，中国农科院团队在Nature Communications在线发表了一项突破性研究——GP-WAITER（Genome-Phenotype prediction using Weighted self-Attention TransformER）。该模型创新性地将GWAS衍生的SNP权重嵌入混合CNN-Transformer架构，在大豆、玉米、水稻和小麦等六大数据集中全面超越七种主流基因组预测方法，预测准确率最高提升77.5%，MSE降低高达95.9%，计算效率提升1.8-2.4倍。更重要的是，GP-WAITER通过SHAP分析实现了模型的生物学可解释性，成功定位到与油脂、异黄酮等重要营养品质相关的关键基因变异。

GS亟待突破“黑箱”与“长程依赖”困境

基因组选择（GS）已成为现代作物育种的核心驱动力。从传统的rrBLUP线性模型到机器学习（SVR、XGBoost、LightGBM），再到深度学习（CNN、DNNGP、Cropformer），各类方法不断涌现。然而，现有模型普遍面临三大瓶颈：

长程依赖捕获不足：卷积运算天然存在感受野限制，难以建模基因组中远距离SNP之间的互作关系；
过度依赖显著SNP：许多方法仅选用GWAS显著位点，丢弃了大量微效多基因信息，限制了对复杂性状遗传架构的全面捕捉；
可解释性差：Transformer等强表达模型在作物基因组中的应用仍较少，且大多缺乏生物学意义上的解释能力。

针对上述挑战，研究团队提出了GP-WAITER——一个融合GWAS权重信息与混合注意力机制的深度学习框架，旨在实现高精度、高效率、高可解释的基因组预测。

加权嵌入 + CNN局部特征 + Transformer全局注意力

GP-WAITER的架构设计包含三大核心模块（图1）：

1. 加权嵌入块（Weighted Embedding Block）

输入：全基因组SNP基因型（二倍体编码：1/-1/0）和对应的GWAS权重（-log10(p) 变换后）
操作：将SNP序列token化后与权重向量进行逐元素乘（Hadamard积），使每个位点的特征表达量与其表型贡献度成正比
输出：一个四维张量，随后送入CNN层

2. 混合编码器（Hybrid CNN-Transformer）

CNN部分：多层1D/2D卷积 + BatchNorm + tanh激活，提取局部模体（如单倍型块、上位性互作）
Transformer部分：3层编码器，每层包含27头自注意力、LayerNorm、残差连接和GELU前馈网络，建模全基因组范围的长程依赖
创新点：将基因组数据重排为2D格式（H×W），显著降低序列长度带来的计算复杂度

3. 预测块（Predictor Block）

由全连接层、1D卷积层和tanh激活组成，逐步降维并输出连续表型值
损失函数：MSE；优化器：Adam（lr=0.001）；训练轮次：200；早停策略

4. 可解释性分析

采用SHAP（SHapley Additive exPlanations） 计算每个SNP对预测结果的边际贡献
结合GWAS、单倍型分析和GO富集，验证模型识别出的关键位点的生物学功能

核心结果全面超越SOTA

研究团队在六个公开数据集（大豆×3、玉米、水稻、小麦）上，将GP-WAITER与rrBLUP、SVR、XGBoost、LightGBM、CNN、DNNGP、Cropformer等七种模型进行了系统比较。

1. 预测精度：最高提升77.5%

大豆1861群体（8个营养品质 × 5个环境）：GP-WAITER平均准确率（Pearson r）达0.64，比最优基线模型提升8.9%~77.5%（绝对增幅4.81%~19.54%）
大豆192 RIL群体：在油脂、蛋白、异黄酮、叶酸四个性状上，相比rrBLUP提升40.89%~103.09%
玉米、水稻、小麦：同样获得一致性的显著提升（图2）
误差指标：MSE降低63.9%~95.9%，RMSE降低25.5%~57%，MAE降低36.7%~62.5%

2. 计算效率：大尺度数据优势明显

在大豆14460数据集（约574万数据点） 上：
GP-WAITER训练耗时4216秒，相比DNNGP（7552秒）加速1.8倍，相比Cropformer（10049秒）加速2.4倍
GPU峰值内存仅536 MB，而Cropformer和DNNGP分别高达1134 MB和1668 MB
这一效率得益于创新的2D张量重塑和BN+残差设计，使得单张RTX 3080即可轻松处理百万级SNP数据

3. 可解释性发现：从“黑箱”到“透明”

SHAP top-20 SNP中，29个基因富集到与性状直接相关的生物学通路（如维生素E代谢、类黄酮合成、光响应等）
示例1：Gm05.41854422（MFT基因错义突变）——在总异黄酮预测中排名第一，同时也是油脂、油酸、生育酚的重要特征。单倍型分析证实，MFT-AA与MFT-CC两组在四个性状上均存在极显著差异（p < 10⁻⁴⁹），验证了该位点的多效性。
示例2：Gm08.8472159（查尔酮合成酶基因上游变异）——SHAP排名第五，但传统GWAS未能检测到（效应小或上位性互作），体现了GP-WAITER在捕捉微弱信号方面的独特优势。

4. 消融实验与影响因素分析

加权信息的作用：GP-WAITER（加权）准确率0.64 vs GP-AITER（无权重）0.59，提升7.9%，尤其在叶酸、总糖、类胡萝卜素上增幅达12.9%~15.1%
遗传力的影响：遗传力与预测准确率呈正相关（R²=0.58）
基因组区域贡献：调控区+基因区SNP贡献了>90%的高SHAP值变异，仅用全基因组SNP预测效果最佳，仅用基因区SNP效果最差
多环境加权扩展：整合5个环境的GWAS权重后，多环境预测准确率从0.64提升至0.75

开启可解释精准育种

GP-WAITER的核心创新可概括为：

加权嵌入机制：将GWAS先验信息以连续权重形式融入模型，保留全基因组所有变异，避免信息丢失；
多头自注意力：在不依赖循环或卷积结构的前提下，高效建模超长基因组序列中的远程互作；
CNN+Transformer混合：同时捕获局部模体和全局依赖，兼顾多样化的群体结构（RIL、自然群体等）；
端到端可解释：SHAP分析使模型不仅预测准确，还能直接输出驱动预测的关键位点及其效应方向。

该模型将传统的“黑箱”预测转变为生物学可解释的智能推断，为分子育种中的亲本选配、杂交组合设计、优良品种选育提供了强有力的计算工具。

研究团队同时指出，未来可在以下方向进一步突破：

实时自适应模型：结合稀疏Transformer，实现持续学习；
多组学融合：整合转录组、表观组、代谢组等多维数据；
发现-验证闭环：将计算预测与基因编辑/功能验证相结合，加速候选基因的生物学确认。

数据与代码：github.com/snowo-w/GP-… | zenodo.org/records/187…

让生信与AI服务于育种——关于米源生物

欢迎加入生信AI育种交流群，一群已满，请添加小编微信拉你加入二群，请备注“姓名-单位”，方便交流~~~

【项目案例】7个主流基因组选择（GS）算法，直接套用你的数据发表文章

测序进入百元时代！

设计育种系列课程——开启“育种5.0”时代的钥匙！