数据的描述性统计
数据的集中趋势
概念:
寻找事物特征的数据集合的代表值或中心值,反映事物目前所处的位置和发展水平。通过对集中趋势指标的多次测量和比较,可以说明事物的发展和变化趋势。
-
算术平均数,主要用于定距数据[1],例如,人均收入。也能用于定类数据[2]和定序数据[3],前提条件是是否具有现实意义,例如,平均分排名。
1.1 简单算术平均数,将数据集合的所有数据相加除以数据值个数得到。
1.2 加权算术平均数,当每个数据值的权重是不一样的,需要用加权算术值来表示数据集合的集中趋势
tips:
a. 简单算术平均数可以看成是加权算术平均数的特殊形式,代表每个数值的权重都为1。
b. 算术平均数的优点是受数据波动的影响最小,具有一定的稳定性,缺点是数据中有极大值或极小值存在是,会对结果产生很大影响
-
几何平均数,当数据关系是乘除关系的时候,就应该用几何平均值来表示数据集合的集中趋势。例如,银行的平均存款年利率,每条生产线的产品合格率
-
众数,数据集合中出现次数最多的数值,出现多个及并列最多,所有数据出现的次数相同则没有众数
例:当月卖的最多的手机型号
-
中位数,把数据集合中的所有数据按大小进行排序,取最中间的一位或两位的算术平均数(根据数据集合的奇偶个数来决定)。中位数相对于算术平均数的优点是不受个别极端值的影响
数据的离散程度
概念:
离散程度指标是用来显示一个数据集合离散程度,同类离散指标中数值越小,代表数据集合的波动越小,反之越大
-
极差,又被称为全距,是指数据集合中最大值与最小值的差值,表示整个数据集合能够覆盖的数值距离
例:描述气温的变化幅度
-
平均偏差,代表了所有数值与平均值的平均偏差距离(思考:这个值应该应该也可以是另外一个固定值,表示对某一个值的偏差)。平均偏差用绝对值的方式消除负号的影响。
例:产品质量控制中,可以衡量质量的稳定性
-
方差和标准差,另一种消除负号影响的方式是平方。方差利用平方克服了离差和等于0的问题,但同时也夸大了数据集合的离散程度。而标准差则是对方差取算术平方根,来消除平方带来的影响
总体的方差:
总体的标准差:
-
变异系数(离散系数),实质上是标准差相对于算术平均值的大小,适用于比较算术平均值不同的两个数据集合
总体的变异系数:
-
四分位极差,将数据按照大小,从低到高排序,比较四分之一位置和四分之三位置的两个数值得到的差值