检测基因组上受选择的区域(即选择信号)是揭示物种适应性进化、人工驯化或复杂性状形成机制的关键手段。XPCLR(Cross-Population Composite Likelihood Ratio,跨群体复合似然比) 是一种常用的选择信号检测方法。
XPCLR的基本概念与核心作用
XPCLR是由Nielsen团队于2009年提出的一种跨群体选择信号检测方法,其核心目标是识别两个群体(一个“目标群体”和一个“参考群体”)之间因选择压力差异导致的基因组分化区域,即受选择影响的“选择扫荡(selective sweep)”区域。
与单一群体内的选择检测方法(如iHS)或基于单一位点分化的方法(如Fst)不同,XPCLR通过整合连续基因组区域的多个SNP(单核苷酸多态性)信息,利用“复合似然比”模型增强对选择信号的检测能力,尤其擅长捕捉因正选择导致的等位基因频率偏离和连锁不平衡(LD)变化。
XPCLR的核心原理
XPCLR的原理可拆解为“跨群体比较”和“复合似然比(CLR)”两个核心部分,结合选择对基因组的影响机制(如等位基因频率偏移、LD增强)实现信号检测。
选择对基因组的影响:为何能被XPCLR检测?
当一个群体(目标群体)经历正选择时,有利等位基因的频率会快速升高(选择扫荡),并导致其周围基因组区域的遗传多样性降低、连锁不平衡(LD)增强;而未经历该选择的参考群体中,该区域的等位基因频率和LD则保持“中性进化”状态。这种差异是XPCLR检测的基础。
复合似然比(CLR):量化选择信号的统计模型
似然比(LR)的核心是比较“有选择”和“无选择”两种假设下观察数据的概率:
- 零假设(H₀):目标群体与参考群体的等位基因频率差异仅由遗传漂变(中性进化)导致;
- 备择假设(H₁):目标群体该区域受正选择,等位基因频率差异由选择驱动。
复合似然比(CLR)则是对连续多个SNP的似然比进行联合计算(而非单个SNP),通过整合相邻位点的LD信息(选择会增强LD),提高对选择信号的敏感性(尤其对不完全选择扫荡,即选择尚未固定有利等位基因的情况)。
跨群体比较:排除中性分化的干扰
XPCLR通过严格对比“目标群体”和“参考群体”的基因组特征,排除因物种分化历史(如种群分裂时间)导致的中性遗传分化,仅聚焦于因选择压力差异产生的“非中性分化”区域。 XPCLR通过跨群体比较和复合似然比模型,整合连续基因组区域的SNP信息,是检测群体间选择信号(尤其是不完全选择扫荡)的高效工具。其核心优势在于平衡了检测灵敏度与对群体历史的稳健性,在动植物进化、育种和人类遗传学研究中具有重要应用价值。实际分析中需注意数据质控、参数优化和参考群体选择,以确保结果的可靠性。