基于上万份大豆种质构建的智能育种平台SSBP近日，南京农业大学刘金定&窦道龙等研究成果SSBP: A meta-GWAS

编者按：这是一篇典型的公共数据+资源平台类的顶刊，也是一篇基础科研结合育种应用的代表作，值得所有做农口生信分析的人员学习和借鉴，包括思路、方法和验证。

近日，南京农业大学刘金定&窦道龙等研究成果SSBP: A meta-GWAS-based pleiotropy-aware QTL atlas and smart breeding platform for soybean在 Molecular Plant在线发表。该研究围绕大豆复杂性状遗传基础不清、历史数据利用不足、育种决策链条分散等问题，构建了集大规模变异资源、多环境 meta-GWAS 分析和育种决策支持于一体的大豆智慧育种平台 SSBP，为大豆分子育种和智能设计育种提供了系统化工具。

研究背景与意义

现有问题

遗传基础解析不充分: 大豆作为重要的植物蛋白和油脂来源，许多农艺性状的遗传基础仍不完全清楚，限制了生物学研究和育种效率
GWAS研究局限性: 以往研究受限于低密度基因分型、样本量有限、多环境分析碎片化等问题
缺乏整合平台: 大豆缺乏像水稻RiceAtlas那样的整合资源，无法将多效性感知定位与育种决策支持相结合
育种需求未满足: 有效的分子育种需要基因型填充、多环境基因组预测、编辑靶点优先级排序和亲本理性选择等功能

研究目标

构建一个超大规模大豆单倍型参考面板，开发整合多性状meta-GWAS数据的智能育种平台，为大豆品种开发提供从变异探索到育种优化的全流程解决方案。

如果有老师对其他作物也有类似需求，欢迎与我们联系合作（MiyuanBiotech），提供全域解决方案（但拒绝白嫖党~）。

研究方法

1. 构建大豆单倍型参考面板（SoyRefHap）

样本: 10,479份全球多样化大豆种质，来自55个国家/地区，包括13%野生种质、29%地方品种、58%改良栽培种
基因组: 基于端粒到端粒的Williams 82基因组（T2T）
变异数据: 2,444万个SNP和343万个INDEL
饱和性分析: 当样本量达到~7,500份时，SNP发现趋于饱和

2. 基因型填充验证

对6种主流大豆SNP芯片（40K/50K/180K/355K/600K/618K）进行填充
填充一致率均超过99.3%

3. Meta-GWAS与QTL图谱构建

利用USDA大豆种质库（USDA-SGC）的基因型和表型数据
将SoySNP50K基因型填充至序列级密度
对622个性状-环境组合进行GWAS，并在性状水平进行meta分析
使用迭代LD信息流程将信号解析为QTL

4. 智能育种工作流开发

基因组预测: 采用BayesR模型，训练622个性状-环境组合模型，保留455个预测精度≥0.50的模型（覆盖54个性状）
编辑靶点推荐: 根据meta-GWAS信号匹配等位基因效应与育种目标
亲本杂交优化: 使用有用性标准（Usefulness Criterion, UC），综合考虑预期后代均值和选择下的遗传方差

5. 平台架构

四个功能模块：

Variation模块: 变异注释、群体等位基因频率模式、关联图谱、邻近基因表达
QTL模块: 性状为中心的全基因组信号、位点总结、相关基因表
CausalMap模块: 区域精细定位、跨性状共定位分析
Breeding模块: 基因型上传、填充、预测、编辑靶点推荐、杂交设计
平台网址: biotec2.njau.edu.cn/ssbp

主要研究结果

1. 遗传变异与群体结构

SoyRefHap比4kSoyGVP多2.4倍样本和1.5倍变异
群体结构分析支持K=12个祖先群体，与USDA大豆种质库一致

2. 多效性QTL图谱特征

共鉴定~531K个显著SNP-性状关联
72%为性状特异性位点
28%为多效性位点（与2个及以上性状相关）
解析为4,321个QTL，覆盖79个性状（9个功能类别）
遗传相关性和QTL集合重叠分析显示广泛的跨性状共享，表明多效性在大豆农艺性状结构中普遍存在
仅1.69%-5.39%的SNP在48个代表性性状间表现出显著的异质性，支持使用固定效应模型

3. 基因组预测性能

180K芯片在9个核心性状上表现最佳，被选为模型开发基础
预测精度≥0.50的模型覆盖54个性状

4. 案例研究1：油分含量因果基因挖掘

鉴定到115个油分含量QTL，分布于全部20条染色体
最强信号位于chr15:3621965-4119537，先导SNP的P值为7.61×10⁻⁷⁵
优先基因GmW82.15G050100（对应GmSWEET10a）：
基因水平关联分析显示与油分含量显著相关（P=3.81×10⁻¹⁴）
与15个额外农艺性状相关
跨性状共定位支持与籽粒重、产量、蛋白质含量、亚麻酸含量和油酸含量共享信号
效应方向：油分与籽粒重、产量、亚麻酸、油酸一致，但与蛋白质相反（符合经典的油-蛋白权衡）
文献证实该基因对种子组分和籽粒重的多效性效应

5. 案例研究2：蛋白质含量育种工作流验证

填充精度: 13个栽培种的SoySNP50K基因型填充至序列级，整体精度达99.6%
预测准确性:
HJ117、ZH13、ZH35预测蛋白质含量最高，与HJ117实际超高蛋白含量（~53%干基）一致
HJ117携带155个籽粒蛋白先导SNP中的98个有利等位基因
野生种质W05携带100个有利等位基因
杂交推荐: HJ117与ZN6、Tianlong1、Huaxia3、ZH35或ZH13组合预测可进一步提高蛋白质含量
独立验证:
21个蛋白模型的共识预测z分数与实际田间表现排名高度一致
预测前10%的种质实测蛋白含量显著高于其余
对5个历史亲本组合的回溯验证显示，UC排名与实际RIL田间蛋白表现强相关
高蛋白品种徐豆23号（2017年审定，最高蛋白含量45.51%）的亲本组合在21个测试环境中多数情况下UC排名最高

讨论与平台优势

与现有资源对比

| 平台 | 特点 | SSBP优势 | | --- | --- | --- | | SoyBase, SoyKB, SoyOmics, SoyOD | 提供多组学数据 | 缺乏育种导向的分析流程 | | SSBP | 整合超大规模单倍型参考面板、多环境meta-GWAS和下游育种模块 | 提供从填充到杂交设计的端到端育种决策支持 |

核心创新点

超大规模参考面板: 10,479份种质，近完整的变异覆盖
多效性感知: 系统注释28%的多效性位点，揭示性状间的遗传关联
高精度填充: 99.3%+的一致率，实现低成本高密度基因分型
多环境预测: 455个高质量预测模型，覆盖54个性状
育种决策整合: 将基因发现（GWAS）与育种应用（预测、编辑、杂交设计）无缝连接

应用价值

基础研究: 解析复杂性状遗传结构，挖掘因果基因
分子育种: 加速大豆品种开发，支持精准设计育种
决策支持: 为育种家提供基因型填充、表型预测、编辑靶点优先级和亲本选择的系统工具

总结

SSBP代表了大豆基因组学研究向育种应用转化的重要里程碑。通过整合超大规模单倍型参考面板、多环境meta-GWAS分析和智能育种决策模块，该平台不仅深化了对大豆复杂性状遗传架构（特别是多效性）的理解，更为大豆分子育种提供了从实验室到田间的完整解决方案，有望显著加速大豆品种改良进程。

【项目案例】7个主流基因组选择（GS）算法，直接套用你的数据发表文章

农作物前沿技术专题课程：从分子辅助到智能设计

测序，烂便宜！