标准差是度量数据集离散度的一个重要指标,但是,本篇讨论的不是标准差的作用和意义,
而是标准差计算中的一个细节问题。
实际情况下,一般会接触到两种标准差:总体标准差和样本标准差,其中样本标准差是最常用的。
1. 总体标准差
总体标准差的计算公式:σ=N1∑i=1N(xi−μ)2
其中,N是总的数据个数,xi表示每个数据,
μ是所有数据的平均值,即:μ=N1∑i=1Nxi
从公式来看,总体标准差很好理解,目的就是度量数据集中的数据偏离平均值的情况。
2. 样本标准差
再来看样本标准差公式:s=N−11∑i=1N(xi−xˉ)2
其中,N是样本集的数据个数,xi表示每个样本数据,
xˉ是样本数据的平均值,即:xˉ=N1∑i=1Nxi
从公式可以看出,样本标准差计算时,用的N−11,而不是N1。
3. 为什么除以 (N-1)
为了区分总体标准差中的数据个数,下面用Nall表示总体标准差中的数据个数,
用Nsamples表示样本标准差中的数据个数。
实际的数据分析中,常用的分析指标是样本标准差,总体标准差用的很少。
因为,总体数据量往往很庞大,而且新的数据不断产生,导致所谓的总体数据也不断变化。
比如,对于民意调查结果,新闻内容,天气数据,股市交易等等,都是抽样做分析。
既然是抽样分析,那么,计算样本标准差时,是得不到整体数据的平均值 μ的。
所以在样本标准差的计算公式中,我们用的是样本的平均值 xˉ,而不是整体的平均值 μ。
直观上来看,样本的平均值 xˉ会要比整体的平均值 μ更接近样本数据集中的数据,
所以,理论上∑i=1Nsamples(xi−xˉ)2要比 ∑i=1Nsamples(xi−μ)2的值小一些。
因此, Nsamples1∑i=1Nsamples(xi−xˉ)2也比 Nsamples1∑i=1Nsamples(xi−μ)2的值要小。
为了调整这个偏差,让样本标准差能够更接近总体的标准差,
样本标准差公式中除以 Nsamples−1而不是 Nsamples,
相当于调高了样本标准差的值,使之更接近**总体的标准差 **。
4. 补充
通过(Nsamples−1)调节样本标准差的过程也被称作贝塞尔校正(Bessel's correction),
它的数学推导过程可以参考:贝塞尔校正