在统计数据中,方差是数据集中某个值与平均值之间的距离的量度,换句话说,它指示值的分散程度,通过使用标准偏差进行测量,常用的另一种方法是偏度,这两个都是通过使用pandas库中可用的函数来计算的。
测量标准偏差
标准偏差是方差的平方根。方差是数据集中值与平均值的平方差的平均值。在python中,无涯教程通过使用pandas库中的函数std()计算此值。
import pandas as pd#创建系列词典 d = {Name:pd.Series([Tom,James,Ricky,Vin,Steve,Smith,Jack, Lee,Chanchal,Learnfk,Naviya,Andres]), Age:pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]), Rating:pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}
#创建一个数据框 df = pd.DataFrame(d)
# 计算标准差 print df.std()
其输出如下-
Age 7.265527 Rating 0.661628 dtype: float64
测量偏度
它用于确定数据是对称的还是偏斜的。如果索引在-1和1之间,则分布是对称的。如果索引不大于-1,则向左倾斜,如果索引至少为1,则向右倾斜
import pandas as pd#创建系列词典 d = {Name:pd.Series([Tom,James,Ricky,Vin,Steve,Smith,Jack, Lee,Chanchal,Learnfk,Naviya,Andres]), Age:pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]), Rating:pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}
#创建一个数据框 df = pd.DataFrame(d) print df.skew()
其输出如下-
Age 1.443490 Rating -0.153629 dtype: float64
因此,年龄等级的分布是对称的,而年龄分布则偏向右侧。