AIGP:自动化可解释的人工智能基因组预测

0 阅读4分钟

近日,中国农业大学胡晓湘/王宇哲团队在经典期刊Genome Research上发表题为“Automated interpretable artificial intelligence genomic prediction with AIGP”的研究,提出了一种自动化可解释人工智能基因组预测方法及工具。

图片

背景与意义

传统的基因组预测方法(如 GBLUP、BayesR)在预测表型时存在明显局限:依赖人工先验假设、难以捕获非加性效应(如上位效应)。机器学习方法虽具潜力,但其“黑箱”特性导致缺乏生物学可解释性。为此,本研究开发了 AIGP(Artificial Intelligence Genomic Prediction),一个自动化、可解释的AI基因组预测工具包,旨在融合机器学习的高预测性能与可解释性,为动植物育种和精准医学提供新工具。

研究方法

  1. 数据来源
  • 真实数据:来自猪、鸡、马、玉米四个物种的20个性状,遗传力范围0.19~0.87。

  • 模拟数据:设置不同遗传力(0.1/0.3/0.7)、QTL数量(50/2000/100000)、效应分布(正态/伽马)及遗传模型(加性/加性×加性)。

  1. 模型比较
  • 传统方法:GBLUP、BayesR。

  • 机器学习:12种模型,分为OLS回归、非线性(KNN、SVM)、Bagging(随机森林、决策树)、Boosting(GBDT、XGBoost、LightGBM、CatBoost等)。

  1. 特征优化:通过增加QTL区域标记密度、使用SLDP策略进行特征选择。

  2. 超参数优化:对比单参数调优、网格搜索和麻雀搜索算法(SSA)

  3. 可解释性:采用SHAP方法量化SNP的加性和上位效应,生成个体、位点和群体水平的效应分布图。

  4. 降维:使用PCA和PHATE将SNP矩阵降维至100维,评估对精度和计算效率的影响。

图片

主要结果

  1. 预测精度比较
  • Boosting算法(尤其是LightGBM和CatBoost)在I类和II类性状(高或中低遗传力且QTL解释度高)上优于传统方法:相比GBLUP和BayesR,精度分别平均提升83.15%和32.28%。

  • 在III类性状(低遗传力、QTL解释度低)上,BayesR表现最优(89%的性状)。

  • GBLUP未在任何性状上取得最优结果。

图片

  1. 模拟数据揭示的影响因素
  • 高遗传力、中等QTL数量、伽马效应分布、存在加性×加性交互作用时,LightGBM和CatBoost的优势更明显
  1. 特征选择的效果
  • 对TW和AGG性状,增加QTL区域标记密度后,LightGBM和CatBoost精度超过GBLUP。

  • 结合SLDP特征优化,LightGBM对AGE和BF性状的精度比GBLUP提升58.33%和19.56%。

  1. 超参数优化
  • SSA显著优于网格搜索和单参数调优。以TW为例,SSA优化后LightGBM和CatBoost精度分别达到0.27和0.28,比单参数方法提高50%以上。
  1. 模型可解释性(SHAP)
  • SHAP值排名前20的SNP与GWAS显著位点重叠率高达70%(top20)。

  • 成功识别出加性、显性、超显性和上位性四种遗传效应模式。

  • 瀑布图展示了个体水平预测值的贡献分解。

图片

  1. 降维效果
  • 精度平均下降<15%(PCA降为0.95倍,PHATE为0.85倍)。

  • 计算时间减少500倍以上(降至<2分钟),远超GBLUP和BayesR。

图片

  1. AIGP工具包
  • 提供命令行和图形界面,集成数据预处理、特征选择(PCA/PHATE/SLDP)、12种AI模型训练、SSA优化、SHAP解释、交叉验证等功能。

  • 开源地址:github.com/CAU-LEI/AIG…

图片

讨论与结论

  • 关键发现:性状的遗传架构和特征选择是决定预测性能的首要因素。Boosting算法在处理非正态分布效应和上位效应时具有天然优势。

  • 可解释性价值:SHAP能够揭示传统线性模型无法捕获的非线性及交互效应,为生物学机制研究提供新线索。

  • 实践建议:不存在适用于所有性状的通用最优模型。推荐根据目标性状的遗传架构(如图2所示)选择模型;若缺乏先验知识,AIGP默认对所有方法进行穷举计算(计算可行)。

  • 未来方向:整合多组学注释、设计降低LD干扰的实验群体、引入大语言模型和自监督学习,实现从单模态到大规模预训练模型的跨越。

后台回复:AIGP,领取PDF全文。

我们团队(打破学术与产业鸿沟,做最懂生物育种的生信团队)专业从事生物信息和智能育种服务,如果您有数据但受限于专业理解、计算资源等因素无法开展,我们可提供基因组选择/预测代跑服务,也可合作共同开发新算法。

【项目案例】7个主流基因组选择(GS)算法,直接套用你的数据发表文章

测序进入百元时代!

设计育种系列课程——开启“育种5.0”时代的钥匙!

欢迎加入生信AI育种交流群,一群已满,请添加小编微信拉你加入二群,请备注“姓名-单位”,方便交流~~~

图片