近日,中国农业大学胡晓湘/王宇哲团队在经典期刊Genome Research上发表题为“Automated interpretable artificial intelligence genomic prediction with AIGP”的研究,提出了一种自动化可解释人工智能基因组预测方法及工具。
背景与意义
传统的基因组预测方法(如 GBLUP、BayesR)在预测表型时存在明显局限:依赖人工先验假设、难以捕获非加性效应(如上位效应)。机器学习方法虽具潜力,但其“黑箱”特性导致缺乏生物学可解释性。为此,本研究开发了 AIGP(Artificial Intelligence Genomic Prediction),一个自动化、可解释的AI基因组预测工具包,旨在融合机器学习的高预测性能与可解释性,为动植物育种和精准医学提供新工具。
研究方法
- 数据来源
-
真实数据:来自猪、鸡、马、玉米四个物种的20个性状,遗传力范围0.19~0.87。
-
模拟数据:设置不同遗传力(0.1/0.3/0.7)、QTL数量(50/2000/100000)、效应分布(正态/伽马)及遗传模型(加性/加性×加性)。
- 模型比较
-
传统方法:GBLUP、BayesR。
-
机器学习:12种模型,分为OLS回归、非线性(KNN、SVM)、Bagging(随机森林、决策树)、Boosting(GBDT、XGBoost、LightGBM、CatBoost等)。
-
特征优化:通过增加QTL区域标记密度、使用SLDP策略进行特征选择。
-
超参数优化:对比单参数调优、网格搜索和麻雀搜索算法(SSA)。
-
可解释性:采用SHAP方法量化SNP的加性和上位效应,生成个体、位点和群体水平的效应分布图。
-
降维:使用PCA和PHATE将SNP矩阵降维至100维,评估对精度和计算效率的影响。
主要结果
- 预测精度比较
-
Boosting算法(尤其是LightGBM和CatBoost)在I类和II类性状(高或中低遗传力且QTL解释度高)上优于传统方法:相比GBLUP和BayesR,精度分别平均提升83.15%和32.28%。
-
在III类性状(低遗传力、QTL解释度低)上,BayesR表现最优(89%的性状)。
-
GBLUP未在任何性状上取得最优结果。
- 模拟数据揭示的影响因素
- 高遗传力、中等QTL数量、伽马效应分布、存在加性×加性交互作用时,LightGBM和CatBoost的优势更明显。
- 特征选择的效果
-
对TW和AGG性状,增加QTL区域标记密度后,LightGBM和CatBoost精度超过GBLUP。
-
结合SLDP特征优化,LightGBM对AGE和BF性状的精度比GBLUP提升58.33%和19.56%。
- 超参数优化
- SSA显著优于网格搜索和单参数调优。以TW为例,SSA优化后LightGBM和CatBoost精度分别达到0.27和0.28,比单参数方法提高50%以上。
- 模型可解释性(SHAP)
-
SHAP值排名前20的SNP与GWAS显著位点重叠率高达70%(top20)。
-
成功识别出加性、显性、超显性和上位性四种遗传效应模式。
-
瀑布图展示了个体水平预测值的贡献分解。
- 降维效果
-
精度平均下降<15%(PCA降为0.95倍,PHATE为0.85倍)。
-
计算时间减少500倍以上(降至<2分钟),远超GBLUP和BayesR。
- AIGP工具包
-
提供命令行和图形界面,集成数据预处理、特征选择(PCA/PHATE/SLDP)、12种AI模型训练、SSA优化、SHAP解释、交叉验证等功能。
讨论与结论
-
关键发现:性状的遗传架构和特征选择是决定预测性能的首要因素。Boosting算法在处理非正态分布效应和上位效应时具有天然优势。
-
可解释性价值:SHAP能够揭示传统线性模型无法捕获的非线性及交互效应,为生物学机制研究提供新线索。
-
实践建议:不存在适用于所有性状的通用最优模型。推荐根据目标性状的遗传架构(如图2所示)选择模型;若缺乏先验知识,AIGP默认对所有方法进行穷举计算(计算可行)。
-
未来方向:整合多组学注释、设计降低LD干扰的实验群体、引入大语言模型和自监督学习,实现从单模态到大规模预训练模型的跨越。
后台回复:AIGP,领取PDF全文。
我们团队(打破学术与产业鸿沟,做最懂生物育种的生信团队)专业从事生物信息和智能育种服务,如果您有数据但受限于专业理解、计算资源等因素无法开展,我们可提供基因组选择/预测代跑服务,也可合作共同开发新算法。
【项目案例】7个主流基因组选择(GS)算法,直接套用你的数据发表文章
欢迎加入生信AI育种交流群,一群已满,请添加小编微信拉你加入二群,请备注“姓名-单位”,方便交流~~~