没有基因型,仅用育种值和气象数据建模也发表了一区top?

0 阅读3分钟

分享一篇接地气的研究:没有用基因型,仅用育种值和气象因子建模预测产量,而且模型也没什么特别,最终也发表了一区top!

这是一篇2024年发表于《Agricultural and Forest Meteorology》(农林科学一区top)的论文:Prediction of maize cultivar yield based on machine learning algorithms for precise promotion and planting。研究基于机器学习算法预测玉米品种产量,实现精确地促进和种植,旨在解决玉米品种在县域尺度上精准推广与种植的问题。


背景与意义

中国玉米种植区域广泛,生态环境复杂,现有的品种审定与推广体系以生态区为单位,难以反映同一生态区内不同县市之间的环境差异。农民在选择品种时往往依赖经验,缺乏科学指导,导致优良品种无法发挥应有潜力,造成经济损失。因此,构建一个能够在县域尺度上预测玉米品种产量的模型,对于实现品种的精准推广与种植具有重要意义


研究方法

  1. 数据来源
  • 研究区域为黄淮海和京津唐两大玉米生态区,涵盖2019—2020年间的52个试验点。

  • 数据包括116个玉米品种在40个试验点的产量、11类气象变量(如温度、降水、风速、日照时数等),以及通过BLUP(最佳线性无偏预测)模型计算得到的品种育种值。

  1. 模型构建
  • 随机森林(RF)

  • Levenberg-Marquardt神经网络(LM NN)

  • 多层感知器神经网络(MLP NN)

  • 采用三种机器学习算法构建产量预测模型:

  • 输入变量为11类气象因子和品种育种值,输出为产量。

  • 数据按80%训练、20%测试划分,使用R²、RMSE、MAE、MAPE等指标评估模型表现。


研究结果

  1. 模型表现
  • 随机森林模型表现最优,R²为0.77,RMSE为320.25 kg/亩,MAE为229.84 kg/亩,MAPE为7.1%。

  • MLP神经网络次之,LM神经网络效果最差。

  1. 变量重要性
  • 育种值对产量预测的贡献最大,其次是温度、日照时数、降水和风速。
  1. 实际应用
  • 模型能够有效识别同一生态区内不同县市的适宜品种。例如,在河北安平县与高城区之间,五个品种的预测产量差异显著,部分品种对环境影响更小,更适宜在不利环境下种植。


讨论

  1. 模型优势
  • 随机森林在处理表格型数据、非线性关系和小样本数据方面表现出色,适合农业领域的小尺度产量预测。

  • 深度学习模型(如MLP)在本研究中表现不如RF,主要因样本量有限。

  1. 实践价值
  • 模型可集成到国家玉米品种试验数据管理平台(NMVTDMP)中,帮助育种企业和推广部门在县域层面筛选适宜品种,减少传统推广方式所需的时间和成本。
  1. 研究局限与展望
  • 当前模型仅以产量为评价指标,未纳入品质、抗病性、抗倒伏等多维性状。

  • 未来将综合考虑多种适应性指标,构建更全面的品种评价体系。


结论

本研究构建了基于机器学习的玉米品种产量预测模型,其中随机森林模型在县域尺度上具有最高的预测精度。该模型能够有效匹配品种与种植环境,为玉米品种的精准推广与种植提供科学依据,具有重要的应用前景和推广价值。

如果您有类似需求,欢迎联系我们。

扩展阅读:

作物纯表型分析也能发不错的文章

【项目案例】7个主流基因组选择(GS)算法,直接套用你的数据发表文章

测序进入百元时代!

设计育种系列课程——开启“育种5.0”时代的钥匙!