基于上万份大豆种质构建的智能育种平台SSBP

0 阅读8分钟

编者按:这是一篇典型的公共数据+资源平台类的顶刊,也是一篇基础科研结合育种应用的代表作,值得所有做农口生信分析的人员学习和借鉴,包括思路、方法和验证。

近日,南京农业大学刘金定&窦道龙等研究成果SSBP: A meta-GWAS-based pleiotropy-aware QTL atlas and smart breeding platform for soybean在 Molecular Plant在线发表。该研究围绕大豆复杂性状遗传基础不清、历史数据利用不足、育种决策链条分散等问题,构建了集大规模变异资源、多环境 meta-GWAS 分析和育种决策支持于一体的大豆智慧育种平台 SSBP,为大豆分子育种和智能设计育种提供了系统化工具。

图片

研究背景与意义

现有问题

  1. 遗传基础解析不充分: 大豆作为重要的植物蛋白和油脂来源,许多农艺性状的遗传基础仍不完全清楚,限制了生物学研究和育种效率

  2. GWAS研究局限性: 以往研究受限于低密度基因分型、样本量有限、多环境分析碎片化等问题

  3. 缺乏整合平台: 大豆缺乏像水稻RiceAtlas那样的整合资源,无法将多效性感知定位与育种决策支持相结合

  4. 育种需求未满足: 有效的分子育种需要基因型填充、多环境基因组预测、编辑靶点优先级排序和亲本理性选择等功能

研究目标

构建一个超大规模大豆单倍型参考面板,开发整合多性状meta-GWAS数据的智能育种平台,为大豆品种开发提供从变异探索到育种优化的全流程解决方案。

如果有老师对其他作物也有类似需求,欢迎与我们联系合作(MiyuanBiotech),提供全域解决方案(但拒绝白嫖党~)。


研究方法

1. 构建大豆单倍型参考面板(SoyRefHap)

  • 样本: 10,479份全球多样化大豆种质,来自55个国家/地区,包括13%野生种质、29%地方品种、58%改良栽培种

  • 基因组: 基于端粒到端粒的Williams 82基因组(T2T)

  • 变异数据: 2,444万个SNP和343万个INDEL

  • 饱和性分析: 当样本量达到~7,500份时,SNP发现趋于饱和

2. 基因型填充验证

  • 对6种主流大豆SNP芯片(40K/50K/180K/355K/600K/618K)进行填充

  • 填充一致率均超过99.3%

3. Meta-GWAS与QTL图谱构建

  • 利用USDA大豆种质库(USDA-SGC)的基因型和表型数据

  • 将SoySNP50K基因型填充至序列级密度

  • 622个性状-环境组合进行GWAS,并在性状水平进行meta分析

  • 使用迭代LD信息流程将信号解析为QTL

4. 智能育种工作流开发

  • 基因组预测: 采用BayesR模型,训练622个性状-环境组合模型,保留455个预测精度≥0.50的模型(覆盖54个性状)

  • 编辑靶点推荐: 根据meta-GWAS信号匹配等位基因效应与育种目标

  • 亲本杂交优化: 使用有用性标准(Usefulness Criterion, UC),综合考虑预期后代均值和选择下的遗传方差

5. 平台架构

四个功能模块:

  • Variation模块: 变异注释、群体等位基因频率模式、关联图谱、邻近基因表达

  • QTL模块: 性状为中心的全基因组信号、位点总结、相关基因表

  • CausalMap模块: 区域精细定位、跨性状共定位分析

  • Breeding模块: 基因型上传、填充、预测、编辑靶点推荐、杂交设计

  • 平台网址: biotec2.njau.edu.cn/ssbp

图片


主要研究结果

1. 遗传变异与群体结构

  • SoyRefHap比4kSoyGVP多2.4倍样本和1.5倍变异

  • 群体结构分析支持K=12个祖先群体,与USDA大豆种质库一致

2. 多效性QTL图谱特征

  • 共鉴定~531K个显著SNP-性状关联

  • 72%为性状特异性位点

  • 28%为多效性位点(与2个及以上性状相关)

  • 解析为4,321个QTL,覆盖79个性状(9个功能类别)

  • 遗传相关性和QTL集合重叠分析显示广泛的跨性状共享,表明多效性在大豆农艺性状结构中普遍存在

  • 仅1.69%-5.39%的SNP在48个代表性性状间表现出显著的异质性,支持使用固定效应模型

3. 基因组预测性能

  • 180K芯片在9个核心性状上表现最佳,被选为模型开发基础

  • 预测精度≥0.50的模型覆盖54个性状

图片图片

4. 案例研究1:油分含量因果基因挖掘

  • 鉴定到115个油分含量QTL,分布于全部20条染色体

  • 最强信号位于chr15:3621965-4119537,先导SNP的P值为7.61×10⁻⁷⁵

  • 优先基因GmW82.15G050100(对应GmSWEET10a):

  • 基因水平关联分析显示与油分含量显著相关(P=3.81×10⁻¹⁴)

  • 与15个额外农艺性状相关

  • 跨性状共定位支持与籽粒重、产量、蛋白质含量、亚麻酸含量和油酸含量共享信号

  • 效应方向:油分与籽粒重、产量、亚麻酸、油酸一致,但与蛋白质相反(符合经典的油-蛋白权衡)

  • 文献证实该基因对种子组分和籽粒重的多效性效应

5. 案例研究2:蛋白质含量育种工作流验证

  • 填充精度: 13个栽培种的SoySNP50K基因型填充至序列级,整体精度达99.6%

  • 预测准确性:

  • HJ117、ZH13、ZH35预测蛋白质含量最高,与HJ117实际超高蛋白含量(~53%干基)一致

  • HJ117携带155个籽粒蛋白先导SNP中的98个有利等位基因

  • 野生种质W05携带100个有利等位基因

  • 杂交推荐: HJ117与ZN6、Tianlong1、Huaxia3、ZH35或ZH13组合预测可进一步提高蛋白质含量

  • 独立验证:

  • 21个蛋白模型的共识预测z分数与实际田间表现排名高度一致

  • 预测前10%的种质实测蛋白含量显著高于其余

  • 对5个历史亲本组合的回溯验证显示,UC排名与实际RIL田间蛋白表现强相关

  • 高蛋白品种徐豆23号(2017年审定,最高蛋白含量45.51%)的亲本组合在21个测试环境中多数情况下UC排名最高


讨论与平台优势

与现有资源对比

| 平台 | 特点 | SSBP优势 | | --- | --- | --- | | SoyBase, SoyKB, SoyOmics, SoyOD | 提供多组学数据 | 缺乏育种导向的分析流程 | | SSBP | 整合超大规模单倍型参考面板、多环境meta-GWAS和下游育种模块 | 提供从填充到杂交设计的端到端育种决策支持 |

核心创新点

  1. 超大规模参考面板: 10,479份种质,近完整的变异覆盖

  2. 多效性感知: 系统注释28%的多效性位点,揭示性状间的遗传关联

  3. 高精度填充: 99.3%+的一致率,实现低成本高密度基因分型

  4. 多环境预测: 455个高质量预测模型,覆盖54个性状

  5. 育种决策整合: 将基因发现(GWAS)与育种应用(预测、编辑、杂交设计)无缝连接

应用价值

  • 基础研究: 解析复杂性状遗传结构,挖掘因果基因

  • 分子育种: 加速大豆品种开发,支持精准设计育种

  • 决策支持: 为育种家提供基因型填充、表型预测、编辑靶点优先级和亲本选择的系统工具


总结

SSBP代表了大豆基因组学研究向育种应用转化的重要里程碑。通过整合超大规模单倍型参考面板、多环境meta-GWAS分析和智能育种决策模块,该平台不仅深化了对大豆复杂性状遗传架构(特别是多效性)的理解,更为大豆分子育种提供了从实验室到田间的完整解决方案,有望显著加速大豆品种改良进程。

【项目案例】7个主流基因组选择(GS)算法,直接套用你的数据发表文章

农作物前沿技术专题课程:从分子辅助到智能设计

测序,烂便宜!

图片

欢迎加入生信AI育种交流群,一群已满,请添加小编微信拉你加入二群,请备注“姓名-单位”,方便交流~~~

图片