全基因组重测序(Whole Genome Resequencing, WGRS)是对已知参考基因组序列的物种进行个体或群体测序,通过与参考图谱比对,全景式鉴定单核苷酸多态性(SNP)、小片段插入缺失(InDel)、结构变异(SV)及拷贝数变异(CNV)等遗传变异。该技术是开展种质资源评价、群体演化解析及重要农艺性状基因定位的核心手段。
一、群体遗传学核心服务体系
1. 极速变异检测体系
长沙米源生物依托高性能计算集群与优化的生信算力流程,提供兼顾精度与效率的全变异检测方案。
-
高精度序列比对: 应用 BWA-MEM2 或更加精准的算法模型,结合碱基质量校正与局部重组分析,最大限度降低测序及比对误差导致的假阳性。
-
全类型变异扫描: 深度集成 SNP、InDel、SV 与 CNV 检测模块。针对复杂植物基因组中的结构变异(SV),整合多套检测算法(如 Manta, Lumpy, Delly),显著提升二代测序中大片段结构变异的捕获率。
-
极速分析交付: 采用商用级加速算法体系,针对超大规模的群体测序数据,可在极短周期内完成端到端的变异检测(Variant Calling)与联合分型(Joint Genotyping)。在同等准确率的情况下,比常规GATK流程快几十甚至上百倍。
2. 群体结构与亲缘关系分析
解析群体内部的遗传背景与分化状态,是开展后续进化研究与关联分析的前提。
-
主成分分析(PCA): 通过降维算法展示群体遗传空间的异质性,识别潜在的离群样本与分化趋势。
-
群体聚类分析(Admixture): 基于最大似然模型估算个体的祖先成分比例,解析群体的遗传组成、历史混合及渐渗事件。
-
系统发育分析: 构建群体水平的邻接树(NJ Tree)或最大似然树(ML Tree),直观呈现物种内部种系发生关系。
-
亲缘关系矩阵(Kinship): 精确计算个体间的遗传相似度,为全基因组关联分析(GWAS)提供必需的协变量支撑。
3. 遗传多样性评估
评估群体内部的遗传潜能、选择压力与连锁程度,为育种策略设计提供量化依据。
-
多态性水平评价: 计算核苷酸多样性(π)、期望杂合度(He)及观察杂合度(Ho)等核心指标,盘点群体遗传库的丰富度。
-
连锁不平衡(LD)分析: 测算 LD 衰减距离。该指标直接反映群体对重组的响应,是确定 GWAS 定位精度、标记开发密度及育种群体规模的重要依据。
-
群体分化评估: 利用固定系数(Fst)量化亚群间的遗传分化程度,识别地理隔离或人工选育导致的群体屏障。
4. 群体选择清除分析
群体选择清除(Selective Sweep)分析鉴定在驯化或自然选择过程中受到强力选择的基因组区域,是锁定优异性状受控位点的高效路径。
-
多参数综合评价体系: 采用多样性比值(π ratio)与 Fst 联合筛选策略,鉴定群体间显著分化的选择区域,常用于寻找人工驯化相关基因。
-
受压信号检测: 整合 Tajima's D 与 XP-CLR 等统计方法,检测特定群体内部等位基因频率的异常偏移,识别受压的选择信号,特别是近期受选择区域。
-
功能位点锁定: 将选择信号区域与基因组注释、QTL 定位结果进行交叉映射,精准锁定调控产量、抗性及品质的核心调控基因簇。
5. 群体进化动态分析
追溯物种演化历史并量化种群间的基因交流,揭示群体动态演进规律。
-
有效群体大小波动: 基于高深度测序数据结合PSMC或SMC++溯祖模型,重构目标物种在重大地质或气候事件下的历史有效群体大小变动轨迹
-
基因流与网状进化: 应用TreeMix模型与ABBA-BABA检验,精确量化不同地理亚群或近缘物种间的历史基因交流方向与渐渗强度
-
演化路径推断: 综合遗传数据系统描绘物种的起源中心、迁徙扩散路线及次生接触事件,为种质资源保护提供宏观演化视野
二、技术流程与应用场景
1. 技术流程
2. 应用场景
| 分析模块 | 核心算法与关键指标 | 重点解答的科学问题 | | --- | --- | --- | | 群体结构分析 | PCA、Admixture、系统发育树、Kinship矩阵 | 确定群体异质性与离群样本;解析个体祖先成分比例与遗传组成;精确计算个体间遗传相似度。 | | 群体遗传多样性 | 核苷酸多样性、杂合度、连锁不平衡衰减距离、固定系数Fst | 评估群体遗传库丰富度与重组潜能;测算标记定位精度与有效育种群体规模;量化亚群间遗传分化程度。 | | 群体选择清除分析 | 多样性比值与Fst联合筛选、Tajima's D、XP-CLR | 鉴定在驯化或改良过程中受到强力选择的基因组区域;锁定调控产量抗性及品质的核心功能位点。 | | 群体进化动态分析 | PSMC或SMC++算法、TreeMix模型、ABBA-BABA检验 | 追溯有效群体大小的历史波动;解析亚群间历史基因交流与网状进化事件;推断物种起源与扩张路径。 |
三、典型案例解析
基于高质量群体变异图谱,长沙米源生物提供多维度的演化与群体基因组深度挖掘。
场景一: 种质资源多样性全景评价与指纹图谱构建
通过对核心种质库开展重测序,全景式解析种质资源的遗传结构与多样性。基于覆盖全基因组的高密度变异位点,开发能够代表群体多样性的品种鉴定指纹图谱,为核心种质挖掘、纯度鉴定与知识产权保护提供数字化依据。
例如,浙江大学作物科学研究所对2032份多样化烟草种质资源开展全基因组重测序,鉴定出5900万个SNPs和830万个InDels,发现烟草存在 G1 和 G2 两个主要遗传亚群,分化主要由育种实践驱动且品种间遗传分化大于烟草类型间;构建了含173个核心 SNP 位点的烟草指纹图谱,为烟草基因组研究和精准育种提供了高分辨率基因组资源与重要理论依据。
Zheng X, Tong Z, Ullah A, et al. Whole-genome sequencing of 2032 diverse tobacco accessions reveals genetic variation and population differentiation. J Genet Genomics. 2026.
场景二: 物种驯化历程与渐渗规律解析
比较分析野生种质、地方品种及现代改良品种的群体遗传差异,系统解析人工驯化过程中的遗传足迹。通过选择清除分析,鉴定影响物种从野生向栽培演变的结构变异与关键基因位点,精准追踪远缘杂交中的遗传渐渗片段。
例如,西南林业大学与中国科学院昆明植物研究所合作,基于全球蓖麻种质基因组分析,证实东非为蓖麻起源地,明确栽培蓖麻驯化特征,并鉴定出大量人工选择区间与关键基因,同时定位了多个调控重要农艺性状的功能基因。
Xu W, Wu D, Yang T, et al. Genomic insights into the origin, domestication and genetic basis of agronomic traits of castor bean. Genome Biol. 2021;22(1):113.
场景三: 物种起源演化与群体历史动态追溯
基于高深度重测序数据结合马尔可夫溯祖模型,重构目标物种在重大地质或气候事件下的有效群体大小波动历史。通过基因流分析精确量化不同地理种群间的基因交流方向与强度,描绘物种的起源中心、迁徙扩散路线及次生接触事件,为种质资源保护与进化生物学研究提供宏观视野。
例如,通过对蓖麻群体动态历史与分化规律分析,发现其数千年前经历种群瓶颈后逐步恢复,野生与栽培蓖麻约3200年前分化,东非两地野生蓖麻更早的遗传分化或受当地地质及气候环境变化影响。
Xu W, Wu D, Yang T, et al. Genomic insights into the origin, domestication and genetic basis of agronomic traits of castor bean. Genome Biol. 2021;22(1):113.
米源生物提供专业的生物信息学分析与智能辅助育种服务,致力于弥合前沿科研发现与育种应用之间的断层。如果您有生信与育种数据分析需求,欢迎联系我们。为了更好地服务于您,可扫码咨询!
往期推文: