多个基因组选择模型该如何加权集成？近日，澳大利亚昆士兰大学Mark Cooper 教授团队在 bioRxiv 上发表了题

近日，澳大利亚昆士兰大学Mark Cooper 教授团队在 bioRxiv 上发表了题为“Improved Ensemble Performance by Weight Optimisation for the Genomic Prediction of Maize Flowering Time Traits”的论文，该研究深入探讨了加权集成平均模型在玉米基因组预测中的应用潜力。

研究背景与意义

1.1 基因组预测与集成学习

基因组预测（Genomic Prediction, GP）是现代作物育种的核心技术，通过基因组标记预测性状表型，可缩短育种周期、降低成本。然而，单一预测模型难以应对复杂性状的不同遗传架构，因此集成学习（Ensemble Learning）成为研究热点——通过组合多个模型的预测结果，利用"多样性预测定理"（Diversity Prediction Theorem）降低整体预测误差。

1.2 研究动机

朴素集成平均模型（Naïve Ensemble）：简单地对所有个体模型赋予相等权重，虽能提升基线性能，但忽略了不同模型间的预测能力差异
加权集成优化：通过为不同模型分配差异化权重，理论上可进一步提升预测性能
研究空白：权重优化在动物育种中已有应用，但在作物育种中研究不足

1.3 研究目标

比较三种加权集成方法与朴素集成基准的性能
分析个体模型多样性对集成预测性能的影响
识别哪种加权方法能持续提升预测性能

材料与方法

2.1 数据集

| 数据集 | 群体来源 | 群体数 | RILs数量 | 遗传多样性 | 性状 | | --- | --- | --- | --- | --- | --- | | TeoNAM | W22 × 5个teosinte（玉米野生祖先） | 5个 | 438-616 | 高（驯化前变异） | DTA, ASI | | MaizeNAM | B73 × 25个自交系 | 25个 | 126-196 | 较低（驯化后精英系） | DTA, ASI |

DTA（散粉期天数）：遗传架构较明确，有已知关键调控基因
ASI（散粉-吐丝间隔）：由DTA和DTS衍生的次级性状，遗传架构更复杂

2.2 个体基因组预测模型（6个）

| 类型 | 模型 | 特点 | | --- | --- | --- | | 参数/半参数模型 | rrBLUP | 线性混合模型，标记效应正态分布 | | | BayesB | 标记效应混合分布（零效应+t分布） | | | RKHS | 再生核希尔伯特空间回归，核函数映射 | | 机器学习模型 | RF | 随机森林，1000棵树 | | | SVR | 支持向量回归，RBF核 | | | MLP | 多层感知机神经网络 |

2.3 三种权重优化方法

（1）线性变换集成（Linear Transformation）

方法：神经网络方法，6个神经元（对应6个模型）+ 可训练权重
优化目标：最小化验证集均方误差（MSE）
训练设置：150轮，Adam优化器，早停机制（耐心值=10）

（2）Nelder-Mead集成

方法：启发式单纯形算法优化权重
优化目标：基于多样性预测定理最小化集成误差
核心公式：

（最小化加权个体误差 - 加权预测多样性）

（3）贝叶斯集成（Bayesian）

方法：贝叶斯优化，代理模型+采集函数
优化目标：最大化上述目标函数的倒数
采集函数：期望改进（Expected Improvement）

2.4 评估设计

数据划分：训练集(50%) : 验证集(25%) : 测试集(25%)
重复次数：TeoNAM每群体500次 → 共2,500场景；MaizeNAM每群体50次 → 共1,250场景
评估指标：Pearson相关系数（准确性）、MSE（误差）
多样性量化：多样性/平均误差比值（第三项/第二项）

主要结果

3.1 加权集成对DTA有效，对ASI无效

DTA（散粉期天数）：

TeoNAM：所有加权集成均显著优于朴素集成
朴素集成：r=0.780, MSE=14.239
Nelder-Mead最优：r=0.879（↑12.7%）, MSE=8.448（↓40.6%）
MaizeNAM：加权集成略有提升，但幅度较小
朴素集成：r=0.596, MSE=2.599
Nelder-Mead最优：r=0.625（↑4.9%）, MSE=2.436（↓6.3%）

ASI（散粉-吐丝间隔）：

朴素集成与三种加权集成性能相当
TeoNAM：r≈0.47, MSE≈4.5；MaizeNAM：r≈0.43, MSE≈0.46
加权优化未带来明显改进

3.2 不同性状的最优权重分配模式迥异

DTA的权重分配（图3a）：

参数/半参数模型占主导（TeoNAM平均77.3%，MaizeNAM平均68.7%）
BayesB和RKHS获得最高权重，权重差异大（多样化分配）
机器学习模型权重较低且集中

ASI的权重分配（图3b）：

机器学习模型权重上升（TeoNAM平均55.5%，MaizeNAM平均47.2%）
各模型权重差异小，接近朴素集成的均等分配（0.17）
SVR在TeoNAM中获得较高权重（0.28）

3.3 多样性预测定理的解释力

| 数据集 | 性状 | 多样性/误差比 | 最优方法 | | --- | --- | --- | --- | | TeoNAM | DTA | 0.778（贝叶斯） | 加权集成显著优于朴素 | | MaizeNAM | DTA | 0.409（贝叶斯） | 加权集成略优于朴素 | | TeoNAM | ASI | 0.146（朴素） | 加权集成无优势 | | MaizeNAM | ASI | 0.112（贝叶斯） | 加权集成无优势 |

关键发现：当加权方法能显著提升多样性/误差比时（如TeoNAM的DTA），预测性能改进明显；当该比值无显著提升时（如ASI），加权优化无效。