AIGP：自动化可解释的人工智能基因组预测近日，中国农业大学胡晓湘/王宇哲团队在经典期刊Genome Research上

近日，中国农业大学胡晓湘/王宇哲团队在经典期刊Genome Research上发表题为“Automated interpretable artificial intelligence genomic prediction with AIGP”的研究，提出了一种自动化可解释人工智能基因组预测方法及工具。

背景与意义

传统的基因组预测方法（如 GBLUP、BayesR）在预测表型时存在明显局限：依赖人工先验假设、难以捕获非加性效应（如上位效应）。机器学习方法虽具潜力，但其“黑箱”特性导致缺乏生物学可解释性。为此，本研究开发了 AIGP（Artificial Intelligence Genomic Prediction），一个自动化、可解释的AI基因组预测工具包，旨在融合机器学习的高预测性能与可解释性，为动植物育种和精准医学提供新工具。

研究方法

数据来源

真实数据：来自猪、鸡、马、玉米四个物种的20个性状，遗传力范围0.19~0.87。
模拟数据：设置不同遗传力（0.1/0.3/0.7）、QTL数量（50/2000/100000）、效应分布（正态/伽马）及遗传模型（加性/加性×加性）。

模型比较

传统方法：GBLUP、BayesR。
机器学习：12种模型，分为OLS回归、非线性（KNN、SVM）、Bagging（随机森林、决策树）、Boosting（GBDT、XGBoost、LightGBM、CatBoost等）。

特征优化：通过增加QTL区域标记密度、使用SLDP策略进行特征选择。
超参数优化：对比单参数调优、网格搜索和麻雀搜索算法（SSA）。
可解释性：采用SHAP方法量化SNP的加性和上位效应，生成个体、位点和群体水平的效应分布图。
降维：使用PCA和PHATE将SNP矩阵降维至100维，评估对精度和计算效率的影响。

主要结果

预测精度比较

Boosting算法（尤其是LightGBM和CatBoost）在I类和II类性状（高或中低遗传力且QTL解释度高）上优于传统方法：相比GBLUP和BayesR，精度分别平均提升83.15%和32.28%。
在III类性状（低遗传力、QTL解释度低）上，BayesR表现最优（89%的性状）。
GBLUP未在任何性状上取得最优结果。

模拟数据揭示的影响因素

高遗传力、中等QTL数量、伽马效应分布、存在加性×加性交互作用时，LightGBM和CatBoost的优势更明显。

特征选择的效果

对TW和AGG性状，增加QTL区域标记密度后，LightGBM和CatBoost精度超过GBLUP。
结合SLDP特征优化，LightGBM对AGE和BF性状的精度比GBLUP提升58.33%和19.56%。

超参数优化

SSA显著优于网格搜索和单参数调优。以TW为例，SSA优化后LightGBM和CatBoost精度分别达到0.27和0.28，比单参数方法提高50%以上。

模型可解释性（SHAP）

SHAP值排名前20的SNP与GWAS显著位点重叠率高达70%（top20）。
成功识别出加性、显性、超显性和上位性四种遗传效应模式。
瀑布图展示了个体水平预测值的贡献分解。

降维效果

精度平均下降<15%（PCA降为0.95倍，PHATE为0.85倍）。
计算时间减少500倍以上（降至<2分钟），远超GBLUP和BayesR。

AIGP工具包

提供命令行和图形界面，集成数据预处理、特征选择（PCA/PHATE/SLDP）、12种AI模型训练、SSA优化、SHAP解释、交叉验证等功能。
开源地址：github.com/CAU-LEI/AIG…

讨论与结论

关键发现：性状的遗传架构和特征选择是决定预测性能的首要因素。Boosting算法在处理非正态分布效应和上位效应时具有天然优势。
可解释性价值：SHAP能够揭示传统线性模型无法捕获的非线性及交互效应，为生物学机制研究提供新线索。
实践建议：不存在适用于所有性状的通用最优模型。推荐根据目标性状的遗传架构（如图2所示）选择模型；若缺乏先验知识，AIGP默认对所有方法进行穷举计算（计算可行）。
未来方向：整合多组学注释、设计降低LD干扰的实验群体、引入大语言模型和自监督学习，实现从单模态到大规模预训练模型的跨越。

后台回复：AIGP，领取PDF全文。

我们团队（打破学术与产业鸿沟，做最懂生物育种的生信团队）专业从事生物信息和智能育种服务，如果您有数据但受限于专业理解、计算资源等因素无法开展，我们可提供基因组选择/预测代跑服务，也可合作共同开发新算法。

【项目案例】7个主流基因组选择（GS）算法，直接套用你的数据发表文章

测序进入百元时代！

设计育种系列课程——开启“育种5.0”时代的钥匙！