编者按:这是一篇典型的公共数据+资源平台类的顶刊,也是一篇基础科研结合育种应用的代表作,值得所有做农口生信分析的人员学习和借鉴,包括思路、方法和验证。
近日,南京农业大学刘金定&窦道龙等研究成果SSBP: A meta-GWAS-based pleiotropy-aware QTL atlas and smart breeding platform for soybean在 Molecular Plant在线发表。该研究围绕大豆复杂性状遗传基础不清、历史数据利用不足、育种决策链条分散等问题,构建了集大规模变异资源、多环境 meta-GWAS 分析和育种决策支持于一体的大豆智慧育种平台 SSBP,为大豆分子育种和智能设计育种提供了系统化工具。
研究背景与意义
现有问题
-
遗传基础解析不充分: 大豆作为重要的植物蛋白和油脂来源,许多农艺性状的遗传基础仍不完全清楚,限制了生物学研究和育种效率
-
GWAS研究局限性: 以往研究受限于低密度基因分型、样本量有限、多环境分析碎片化等问题
-
缺乏整合平台: 大豆缺乏像水稻RiceAtlas那样的整合资源,无法将多效性感知定位与育种决策支持相结合
-
育种需求未满足: 有效的分子育种需要基因型填充、多环境基因组预测、编辑靶点优先级排序和亲本理性选择等功能
研究目标
构建一个超大规模大豆单倍型参考面板,开发整合多性状meta-GWAS数据的智能育种平台,为大豆品种开发提供从变异探索到育种优化的全流程解决方案。
如果有老师对其他作物也有类似需求,欢迎与我们联系合作(MiyuanBiotech),提供全域解决方案(但拒绝白嫖党~)。
研究方法
1. 构建大豆单倍型参考面板(SoyRefHap)
-
样本: 10,479份全球多样化大豆种质,来自55个国家/地区,包括13%野生种质、29%地方品种、58%改良栽培种
-
基因组: 基于端粒到端粒的Williams 82基因组(T2T)
-
变异数据: 2,444万个SNP和343万个INDEL
-
饱和性分析: 当样本量达到~7,500份时,SNP发现趋于饱和
2. 基因型填充验证
-
对6种主流大豆SNP芯片(40K/50K/180K/355K/600K/618K)进行填充
-
填充一致率均超过99.3%
3. Meta-GWAS与QTL图谱构建
-
利用USDA大豆种质库(USDA-SGC)的基因型和表型数据
-
将SoySNP50K基因型填充至序列级密度
-
对622个性状-环境组合进行GWAS,并在性状水平进行meta分析
-
使用迭代LD信息流程将信号解析为QTL
4. 智能育种工作流开发
-
基因组预测: 采用BayesR模型,训练622个性状-环境组合模型,保留455个预测精度≥0.50的模型(覆盖54个性状)
-
编辑靶点推荐: 根据meta-GWAS信号匹配等位基因效应与育种目标
-
亲本杂交优化: 使用有用性标准(Usefulness Criterion, UC),综合考虑预期后代均值和选择下的遗传方差
5. 平台架构
四个功能模块:
-
Variation模块: 变异注释、群体等位基因频率模式、关联图谱、邻近基因表达
-
QTL模块: 性状为中心的全基因组信号、位点总结、相关基因表
-
CausalMap模块: 区域精细定位、跨性状共定位分析
-
Breeding模块: 基因型上传、填充、预测、编辑靶点推荐、杂交设计
-
平台网址: biotec2.njau.edu.cn/ssbp
主要研究结果
1. 遗传变异与群体结构
-
SoyRefHap比4kSoyGVP多2.4倍样本和1.5倍变异
-
群体结构分析支持K=12个祖先群体,与USDA大豆种质库一致
2. 多效性QTL图谱特征
-
共鉴定~531K个显著SNP-性状关联
-
72%为性状特异性位点
-
28%为多效性位点(与2个及以上性状相关)
-
解析为4,321个QTL,覆盖79个性状(9个功能类别)
-
遗传相关性和QTL集合重叠分析显示广泛的跨性状共享,表明多效性在大豆农艺性状结构中普遍存在
-
仅1.69%-5.39%的SNP在48个代表性性状间表现出显著的异质性,支持使用固定效应模型
3. 基因组预测性能
-
180K芯片在9个核心性状上表现最佳,被选为模型开发基础
-
预测精度≥0.50的模型覆盖54个性状
4. 案例研究1:油分含量因果基因挖掘
-
鉴定到115个油分含量QTL,分布于全部20条染色体
-
最强信号位于chr15:3621965-4119537,先导SNP的P值为7.61×10⁻⁷⁵
-
优先基因GmW82.15G050100(对应GmSWEET10a):
-
基因水平关联分析显示与油分含量显著相关(P=3.81×10⁻¹⁴)
-
与15个额外农艺性状相关
-
跨性状共定位支持与籽粒重、产量、蛋白质含量、亚麻酸含量和油酸含量共享信号
-
效应方向:油分与籽粒重、产量、亚麻酸、油酸一致,但与蛋白质相反(符合经典的油-蛋白权衡)
-
文献证实该基因对种子组分和籽粒重的多效性效应
5. 案例研究2:蛋白质含量育种工作流验证
-
填充精度: 13个栽培种的SoySNP50K基因型填充至序列级,整体精度达99.6%
-
预测准确性:
-
HJ117、ZH13、ZH35预测蛋白质含量最高,与HJ117实际超高蛋白含量(~53%干基)一致
-
HJ117携带155个籽粒蛋白先导SNP中的98个有利等位基因
-
野生种质W05携带100个有利等位基因
-
杂交推荐: HJ117与ZN6、Tianlong1、Huaxia3、ZH35或ZH13组合预测可进一步提高蛋白质含量
-
独立验证:
-
21个蛋白模型的共识预测z分数与实际田间表现排名高度一致
-
预测前10%的种质实测蛋白含量显著高于其余
-
对5个历史亲本组合的回溯验证显示,UC排名与实际RIL田间蛋白表现强相关
-
高蛋白品种徐豆23号(2017年审定,最高蛋白含量45.51%)的亲本组合在21个测试环境中多数情况下UC排名最高
讨论与平台优势
与现有资源对比
| 平台 | 特点 | SSBP优势 | | --- | --- | --- | | SoyBase, SoyKB, SoyOmics, SoyOD | 提供多组学数据 | 缺乏育种导向的分析流程 | | SSBP | 整合超大规模单倍型参考面板、多环境meta-GWAS和下游育种模块 | 提供从填充到杂交设计的端到端育种决策支持 |
核心创新点
-
超大规模参考面板: 10,479份种质,近完整的变异覆盖
-
多效性感知: 系统注释28%的多效性位点,揭示性状间的遗传关联
-
高精度填充: 99.3%+的一致率,实现低成本高密度基因分型
-
多环境预测: 455个高质量预测模型,覆盖54个性状
-
育种决策整合: 将基因发现(GWAS)与育种应用(预测、编辑、杂交设计)无缝连接
应用价值
-
基础研究: 解析复杂性状遗传结构,挖掘因果基因
-
分子育种: 加速大豆品种开发,支持精准设计育种
-
决策支持: 为育种家提供基因型填充、表型预测、编辑靶点优先级和亲本选择的系统工具
总结
SSBP代表了大豆基因组学研究向育种应用转化的重要里程碑。通过整合超大规模单倍型参考面板、多环境meta-GWAS分析和智能育种决策模块,该平台不仅深化了对大豆复杂性状遗传架构(特别是多效性)的理解,更为大豆分子育种提供了从实验室到田间的完整解决方案,有望显著加速大豆品种改良进程。
【项目案例】7个主流基因组选择(GS)算法,直接套用你的数据发表文章
欢迎加入生信AI育种交流群,一群已满,请添加小编微信拉你加入二群,请备注“姓名-单位”,方便交流~~~