分享一篇接地气的研究:没有用基因型,仅用育种值和气象因子建模预测产量,而且模型也没什么特别,最终也发表了一区top!
这是一篇2024年发表于《Agricultural and Forest Meteorology》(农林科学一区top)的论文:Prediction of maize cultivar yield based on machine learning algorithms for precise promotion and planting。研究基于机器学习算法预测玉米品种产量,实现精确地促进和种植,旨在解决玉米品种在县域尺度上精准推广与种植的问题。
背景与意义
中国玉米种植区域广泛,生态环境复杂,现有的品种审定与推广体系以生态区为单位,难以反映同一生态区内不同县市之间的环境差异。农民在选择品种时往往依赖经验,缺乏科学指导,导致优良品种无法发挥应有潜力,造成经济损失。因此,构建一个能够在县域尺度上预测玉米品种产量的模型,对于实现品种的精准推广与种植具有重要意义。
研究方法
- 数据来源
-
研究区域为黄淮海和京津唐两大玉米生态区,涵盖2019—2020年间的52个试验点。
-
数据包括116个玉米品种在40个试验点的产量、11类气象变量(如温度、降水、风速、日照时数等),以及通过BLUP(最佳线性无偏预测)模型计算得到的品种育种值。
- 模型构建
-
随机森林(RF)
-
Levenberg-Marquardt神经网络(LM NN)
-
多层感知器神经网络(MLP NN)
-
采用三种机器学习算法构建产量预测模型:
-
输入变量为11类气象因子和品种育种值,输出为产量。
-
数据按80%训练、20%测试划分,使用R²、RMSE、MAE、MAPE等指标评估模型表现。
研究结果
- 模型表现
-
随机森林模型表现最优,R²为0.77,RMSE为320.25 kg/亩,MAE为229.84 kg/亩,MAPE为7.1%。
-
MLP神经网络次之,LM神经网络效果最差。
- 变量重要性
- 育种值对产量预测的贡献最大,其次是温度、日照时数、降水和风速。
- 实际应用
- 模型能够有效识别同一生态区内不同县市的适宜品种。例如,在河北安平县与高城区之间,五个品种的预测产量差异显著,部分品种对环境影响更小,更适宜在不利环境下种植。
讨论
- 模型优势
-
随机森林在处理表格型数据、非线性关系和小样本数据方面表现出色,适合农业领域的小尺度产量预测。
-
深度学习模型(如MLP)在本研究中表现不如RF,主要因样本量有限。
- 实践价值
- 模型可集成到国家玉米品种试验数据管理平台(NMVTDMP)中,帮助育种企业和推广部门在县域层面筛选适宜品种,减少传统推广方式所需的时间和成本。
- 研究局限与展望
-
当前模型仅以产量为评价指标,未纳入品质、抗病性、抗倒伏等多维性状。
-
未来将综合考虑多种适应性指标,构建更全面的品种评价体系。
结论
本研究构建了基于机器学习的玉米品种产量预测模型,其中随机森林模型在县域尺度上具有最高的预测精度。该模型能够有效匹配品种与种植环境,为玉米品种的精准推广与种植提供科学依据,具有重要的应用前景和推广价值。
如果您有类似需求,欢迎联系我们。
扩展阅读: