方差的概念
方差(Variance)是衡量数据和期望值相差的度量值。在概率论或者统计学中,方差是对随机变量或一组数据离散程度的度量。
- 当数据分布比较
分散(即数据在平均数附近波动较大)时,各数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。 概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计学中的方差(样本方差)是每个样本值与全体样本值平均数之差的平方值的平均数。
统计学中的方差
在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。方差计算公式为:
这里,σ2 是总体方差,X 为变量,μ 为总体均值,N 为样本数。
概率论中的方差
在概率分布中,设 X 是一个离散型随机变量,若 E{[X−E(X)]2} 存在,则称 E{[X−E(X)]2} 为 X 的方差,记为 D(X) 或 DX,其中 E(X) 是 X 的期望值,X 是变量值,公式中的 E 是期望值。 离散型随机变量方差的计算公式为:
方差的性质
方差具有如下性质:
- 设 C 是常数,则 D(C)=0 成立。
- 设 X 是随机变量,C 是常数,则有
成立。
- 设 X 与 Y 是两个随机变量,则以下算式成立:
D(X±Y)=D(X)+D(Y)±2cov(X,Y)
方差的计算方法
- 使用 numpy 库计算方差
numpy.var(arr, axis=None, dtype=None) - 使用 pandas 库计算方差
series.var(axis=None)