统计学part1---认识数据

293 阅读7分钟

数据和变量

数据

定性数据

性别:男,女

颜色:赤,橙,黄,绿,青,蓝,紫

教育程度:小学,初中,高中,本科,硕士,博士

评价:好评,中评,差评

上述四组数据都对事物的性质进行了一些描述,我们称这种数据为定性数据

定量数据

年份: 2019, 2018, 2017, 2016,2015

温度: 10,15,20,25,30,35, 40,45

身高: 1.60,1.65,1.70 ,1.75,1.80

体重: 40,45,50,55,60,65,70

以上四组数据都是取值为数值的数据,我们称这种数据为定量数据

数据和变量

数据(data)是由变量(variable)组成的

上面我们所举例的性别、颜色,教育程度、评价,年份、温度,身高、体重,就是变量,而相对应的取值就是数据

在同一个人身上我们可以知道这个人的性别,身高,体重,受教育程度等,都是我们可以获取到的数据

一个变量(variable)应该包含至少2个不同的取值

只有一个取值的称为常数

定性/分类变量

性别:男(1),女(2)

颜色:赤(1),橙(2),黄(3),绿(4),青(5),蓝(6),紫(7)

我们首先针对性别和颜色两个变量,我们可以为他们分配数值。我们可以看出,对于这两个变量,是性质上的差异而不是数量上的差异,虽然我们可以把数字跟某一个类别进行对应,但是男和女的差异并不等于1和2的差异。这就是类别变量(也称为分类变量或无序分类变量)最本质的特征。这类变量只能进行是否相等的比较,不能进行顺序(不能比较大小)或等级(不能比较优劣)的比较的

教育程度:小学(1),初中(2),高中(3),本科(4),硕士(5),博士(6)

评价:好评(5),良好(4),中评(3),中下(2),差评(1)

和上面的两组变量类似,教育程度和评价也是性质上的差异而不是数量上的差异,我们无法对这些数值进行数量上的差异的比较,但是和上面两组变量不同的是:

  1. 我们可以进行是否相等的比较(比如两个人都是本科毕业,那么他们的受教育程度相等)
  2. 我们可以进行有顺序(可以比较大小)或等级(可以比较优劣)的比较(好评5分就是高于差评的1分),但是性质上的差异体现在好评不等于5倍差评

定量/数值变量

年份: 2019, 2018, 2017, 2016,2015

温度: 10,15,20,25,30,35, 40,45

年份和温度这两个变量的共同特征是它们的取值都是数值,可以进行是否相等的比较(比如今天的温度是20℃,昨天的温度是18℃,那么今天的温度是≠昨天的温度的),此外这些数据是有顺序(可以比较大小),更重要的是这类型的数值可以进行加减运算(具有等间距特性)

身高: 1.60,1.65,1.70 ,1.75,1.80

体重: 40,45,50,55,60,65,70

同样的,身高体重也是数值,也可以进行是否相等的比较,有顺序(可以比较大小),同样具备等间距特性,可以进行加减运算,除此之外,还可以进行乘除计算(与上面两组变量的不同之处)

观测,变量,与数据矩阵

观测

我们通常拿到了数据后,都会进行简单的整理,整理成表格或者其它

如果我们是整理成数据表格

性别教育程度出生年份身高
本科1999165
本科2000172
高中2003178
博士1995168

表格中一行数据我们称之为一次观测(observation)

我们在一次观测中,进行了多个取值的记录

变量

表格中一列就是一个变量(variable)

上面的表格中就含有性别、教育程度、出生年份、身高四个变量

数据矩阵

整个表格我们称为数据矩阵(data matrix)

测量尺度

我们可以把测量尺度想象成不同的尺子,不同的尺子可以测量不同的事物(比如说我们用直尺可以测量一个物体的长度和高度,但是不能测量重量),不同的尺子具有不同的属性(秤测量重量,表测量温度......),这些属性使得这些尺子具有夫测量某种特定数据的能力

抽象数字系统

在数学世界中,我们使用抽象数字系统,这个系统具有许多不同的属性,不同的属性集合对应不同的尺子

抽象数字系统的属性

四个属性

  • 每一个数字有其独特的含义(identit)

我们之前举例到的性别和颜色,我们把不同的数字赋值不同的类别中

  • 数字具有从小到大的固有顺序(magnitude)

我们把教育程度从低到高赋子数字以后,这些数字就具有了固有的大小

  • 任意位置的单位间距是相同的(equal intervals)

2019和2018年之间相差的一年等于2015年和2016年相差的一年

  • 零(0)表示被测量的属性不存在(absolute/true zero)

身高为零代表身高不存在

测量

  • 测量是指根据一定的规则,把数字(numbers)分配给观测(observations)
  • 把数字分配给观测的方式,决定了测量尺度(scale of measurement)
  • 每个测量尺度代表抽象数字系统的特定属性或属性集合

名目尺度(nominal scale)

名目尺度是根据事物的特征对其进行分类的一种尺度

  • 只具备第一个属性,即每一个数字有其独特的含义
  • 如果一个尺度可以根据名目尺度进行测量,那么这个变量就称为名目变量(nominal variable)

(如性别、颜色...)

不妨把无序分类变量这个名称理解成是这类变量的俗名,而名目变量理解成学名

次序尺度(ordinal scale)

次序尺度是根据事物的特征对其进行等级排序的一种尺度

  • 具备前两个属性

    • 每一个数字有其独特的含义
    • 数字具有从小到大的固有顺序
  • 如果一个尺度可以根据次序尺度进行测量,那么这个变量就称为次序变量(ordinal variable)

(如教育程度,评价...)

等距尺度(interval scale)

等距尺度是指数值之间的单位间隔是等距的一种尺度

  • 具备前三个属性

    • 每一个数字有其独特的含义
    • 数字具有从小到大的固有顺序
    • 任意位置的单位间距是相同的
    • 没有真零点,则乘除运算结果不唯一(无意义),比如温度中,摄氏度下的0和华氏度下的0是不相等的

  • 如果一个尺度可以根据等距尺度进行测量,那么这个变量就称为等距变量(interval variable)

(如年份、温度、时间...)

等比尺度(ratio scale)

等比尺度是具有等距尺度的所有特性并且零点有意义的尺度

  • 具备所有四个属性

    • 每一个数字有其独特的含义
    • 数字具有从小到大的固有顺序
    • 任意位置的单位间距是相同的
    • 零(0)表示被测量的属性不存在(有真零点,因此可以进行乘除运算)
  • 如果一个尺度可以根据等比尺度进行测量,那么这个变量就称为等比变量(ratio variable)

(如身高、体重...)

测量尺度的重要性

测量尺度决定了可以进行哪些逻辑与数学运算和使用哪种统计方法

尺度举例逻辑与数学运算类别
名目性别、颜色=、≠定性/(无序)分类变量
次序教育程度、评价=、≠、>、<定性/(有序)分类变量
等距温度、年份、时间=、≠、>、<、+、-定量/数值变量
等比身高、体重、年龄=、≠、>、<、+、-、*、/定量/数值变量

对应数值变量还分为离散型变量和连续型变量

当我们拿到一个变量后,我们可以通过下图的方式进行判断

image.png