没有基因型，仅用育种值和气象数据建模也发表了一区top？

生物信息与育种

2026-04-03 24 阅读3分钟

分享一篇接地气的研究：没有用基因型，仅用育种值和气象因子建模预测产量，而且模型也没什么特别，最终也发表了一区top！

这是一篇2024年发表于《Agricultural and Forest Meteorology》（农林科学一区top）的论文：Prediction of maize cultivar yield based on machine learning algorithms for precise promotion and planting。研究基于机器学习算法预测玉米品种产量，实现精确地促进和种植，旨在解决玉米品种在县域尺度上精准推广与种植的问题。

背景与意义

中国玉米种植区域广泛，生态环境复杂，现有的品种审定与推广体系以生态区为单位，难以反映同一生态区内不同县市之间的环境差异。农民在选择品种时往往依赖经验，缺乏科学指导，导致优良品种无法发挥应有潜力，造成经济损失。因此，构建一个能够在县域尺度上预测玉米品种产量的模型，对于实现品种的精准推广与种植具有重要意义。

研究方法

数据来源

研究区域为黄淮海和京津唐两大玉米生态区，涵盖2019—2020年间的52个试验点。
数据包括116个玉米品种在40个试验点的产量、11类气象变量（如温度、降水、风速、日照时数等），以及通过BLUP（最佳线性无偏预测）模型计算得到的品种育种值。

模型构建

随机森林（RF）
Levenberg-Marquardt神经网络（LM NN）
多层感知器神经网络（MLP NN）
采用三种机器学习算法构建产量预测模型：
输入变量为11类气象因子和品种育种值，输出为产量。
数据按80%训练、20%测试划分，使用R²、RMSE、MAE、MAPE等指标评估模型表现。

研究结果

模型表现

随机森林模型表现最优，R²为0.77，RMSE为320.25 kg/亩，MAE为229.84 kg/亩，MAPE为7.1%。
MLP神经网络次之，LM神经网络效果最差。

变量重要性

育种值对产量预测的贡献最大，其次是温度、日照时数、降水和风速。

实际应用

模型能够有效识别同一生态区内不同县市的适宜品种。例如，在河北安平县与高城区之间，五个品种的预测产量差异显著，部分品种对环境影响更小，更适宜在不利环境下种植。

讨论

模型优势

随机森林在处理表格型数据、非线性关系和小样本数据方面表现出色，适合农业领域的小尺度产量预测。
深度学习模型（如MLP）在本研究中表现不如RF，主要因样本量有限。

实践价值

模型可集成到国家玉米品种试验数据管理平台（NMVTDMP）中，帮助育种企业和推广部门在县域层面筛选适宜品种，减少传统推广方式所需的时间和成本。

研究局限与展望

当前模型仅以产量为评价指标，未纳入品质、抗病性、抗倒伏等多维性状。
未来将综合考虑多种适应性指标，构建更全面的品种评价体系。

结论

本研究构建了基于机器学习的玉米品种产量预测模型，其中随机森林模型在县域尺度上具有最高的预测精度。该模型能够有效匹配品种与种植环境，为玉米品种的精准推广与种植提供科学依据，具有重要的应用前景和推广价值。

如果您有类似需求，欢迎联系我们。

扩展阅读：

作物纯表型分析也能发不错的文章

【项目案例】7个主流基因组选择（GS）算法，直接套用你的数据发表文章

测序进入百元时代！

设计育种系列课程——开启“育种5.0”时代的钥匙！