企业级大数据技术与应用:方差

76 阅读2分钟

方差的概念

方差(Variance)是衡量数据和期望值相差的度量值。在概率论或者统计学中,方差是对随机变量或一组数据离散程度的度量。

  • 当数据分布比较分散(即数据在平均数附近波动较大)时,各数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。
  • 概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。
  • 统计学中的方差(样本方差)是每个样本值与全体样本值平均数之差的平方值的平均数。

统计学中的方差

在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。方差计算公式为:

1.png

这里,σ2 是总体方差,X 为变量,μ 为总体均值,N 为样本数。

概率论中的方差

在概率分布中,设 X 是一个离散型随机变量,若 E{[X−E(X)]2} 存在,则称 E{[X−E(X)]2} 为 X 的方差,记为 D(X) 或 DX,其中 E(X) 是 X 的期望值,X 是变量值,公式中的 E 是期望值。 离散型随机变量方差的计算公式为:

2.png

方差的性质

方差具有如下性质:

  1. 设 C 是常数,则 D(C)=0 成立。
  2. 设 X 是随机变量,C 是常数,则有 

3.png成立。

  1. 设 X 与 Y 是两个随机变量,则以下算式成立:

D(X±Y)=D(X)+D(Y)±2cov(X,Y)

方差的计算方法

  1. 使用 numpy 库计算方差numpy.var(arr, axis=None, dtype=None)
  2. 使用 pandas 库计算方差series.var(axis=None)