加权嵌入与Transformer提升作物表型预测

4 阅读1分钟

利用加权嵌入和Transformer架构改善作物复杂性状的表型预测

摘要

理解基因组变异与表型之间的关系是解析复杂性状遗传结构的基础。然而,现有统计模型难以在海量基因组数据集与生物学可解释性之间取得平衡。为此,提出GP-WAITER——一个深度学习框架,将GWAS衍生的SNP权重整合到混合卷积神经网络与Transformer架构中。通过利用加权嵌入机制和多头自注意力,GP-WAITER能够有效捕获超长基因组序列中的长程依赖关系。该模型在六个数据集上持续优于七种最先进的基因组预测模型,预测准确率最高提升77.5%,均方误差降低78%,计算效率提高1.8-2.4倍。此外,GP-WAITER通过精确定位驱动特定性状的关键遗传变异,提供了生物学透明度。这一可扩展、可解释的框架为精准育种和性状相关变异的功能解读提供了强大工具。

数据可用性

大豆1861、大豆192、玉米244、小麦406、水稻529和大豆14460数据集的基因型和表型数据,以及大豆1861的环境数据已保存在Zenodo [zenodo.org/records/187…

代码可用性

GP-WAITER脚本可在Github [github.com/snowo-w/GP-…] 的Apache许可证下获取。本研究中使用的特定版本(v1.0.0)已通过Zenodo存档 [doi.org/10.5281/zen…