AB测试之统计基础

181 阅读2分钟

常见指标类型

在实际业务中,我们常用的指标是两类。 均值类的指标,比如用户的平均使用时长、平均购买金额、平均购买频率,等等。

概率类的指标,比如用户点击的概率(点击率)、转化的概率(转化率)、购买的概率(购买率),等等。

这些指标都是用来表征用户行为的。而用户的行为是非常随机的,这也就意味着这些指标是由一系列随机事件组成的变量,也就是统计学中的随机变量。

就是可以用概率分布(Probability Distribution),来表征随机变量取不同值的概率和范围。所以,A/B 测试指标的统计属性,其实就是要看这些指标到底服从什么概率平均值μ=0、标准差σ=1 的正态分布。分布。

正态分布

在数量足够大时,均值类指标服从正态分布; 概率类指标本质上服从二项分布,但当数量足够大时,也服从正态分布。

在统计上,如果一个随机变量 x 的概率密度函数(Probability Density Function)是

image.png 那么,x 就服从正态分布。其中 ,μ为 x 的平均值(Mean),σ为 x 的标准差(Standard Deviation),n 为随机变量 x 的个数,xi 为第 i 个 x 的值。

随机变量 x 服从正态分布时的直方图(Histogram)如下: image.png

标准正态分布

就是平均值μ=0、标准差σ=1 的正态分布。

分布图长这样: image.png

z分数

这里的横轴就是 z 分数(Z Score),也叫做标准分数(Standard Score)

image.png

任何一个正态分布都可以通过标准化(Standardization)变成标准正态分布。 而标准化的过程,就是按照上面这个公式把随机变量 x 变为 z 分数。

不同 z 分数的值,代表 x 的不同取值偏离平均值μ多少个标准差σ。比如,当 z 分数等于 1 时,说明该值偏离平均值 1 个标准差σ。

中心极限定理

当样本量足够大时,均值类变量会趋近于正态分布。这背后的理论基础,就是中心极限定理。

不管随机变量的概率分布是什么,只要取样时的样本量足够大,那么这些样本的平均值的分布就会趋近于正态分布。 实际上这里的足够大,指的是超过30就可以了。

二项分布(Binomial Distribution)

二项分布,即描述二元事件概率分布的术语。

此文章为3月Day4学习笔记,内容来源于极客时间《01 | 统计基础(上):系统掌握指标的统计属性 (geekbang.org)