数据和变量
数据
定性数据
性别:男,女
颜色:赤,橙,黄,绿,青,蓝,紫
教育程度:小学,初中,高中,本科,硕士,博士
评价:好评,中评,差评
上述四组数据都对事物的性质进行了一些描述,我们称这种数据为定性数据
定量数据
年份: 2019, 2018, 2017, 2016,2015
温度: 10,15,20,25,30,35, 40,45
身高: 1.60,1.65,1.70 ,1.75,1.80
体重: 40,45,50,55,60,65,70
以上四组数据都是取值为数值的数据,我们称这种数据为定量数据
数据和变量
数据(data)是由变量(variable)组成的
上面我们所举例的性别、颜色,教育程度、评价,年份、温度,身高、体重,就是变量,而相对应的取值就是数据
在同一个人身上我们可以知道这个人的性别,身高,体重,受教育程度等,都是我们可以获取到的数据
一个变量(variable)应该包含至少2个不同的取值
只有一个取值的称为常数
定性/分类变量
性别:男(1),女(2)
颜色:赤(1),橙(2),黄(3),绿(4),青(5),蓝(6),紫(7)
我们首先针对性别和颜色两个变量,我们可以为他们分配数值。我们可以看出,对于这两个变量,是性质上的差异而不是数量上的差异,虽然我们可以把数字跟某一个类别进行对应,但是男和女的差异并不等于1和2的差异。这就是类别变量(也称为分类变量或无序分类变量)最本质的特征。这类变量只能进行是否相等的比较,不能进行顺序(不能比较大小)或等级(不能比较优劣)的比较的
教育程度:小学(1),初中(2),高中(3),本科(4),硕士(5),博士(6)
评价:好评(5),良好(4),中评(3),中下(2),差评(1)
和上面的两组变量类似,教育程度和评价也是性质上的差异而不是数量上的差异,我们无法对这些数值进行数量上的差异的比较,但是和上面两组变量不同的是:
- 我们可以进行是否相等的比较(比如两个人都是本科毕业,那么他们的受教育程度相等)
- 我们可以进行有顺序(可以比较大小)或等级(可以比较优劣)的比较(好评5分就是高于差评的1分),但是性质上的差异体现在好评不等于5倍差评
定量/数值变量
年份: 2019, 2018, 2017, 2016,2015
温度: 10,15,20,25,30,35, 40,45
年份和温度这两个变量的共同特征是它们的取值都是数值,可以进行是否相等的比较(比如今天的温度是20℃,昨天的温度是18℃,那么今天的温度是≠昨天的温度的),此外这些数据是有顺序(可以比较大小),更重要的是这类型的数值可以进行加减运算(具有等间距特性)
身高: 1.60,1.65,1.70 ,1.75,1.80
体重: 40,45,50,55,60,65,70
同样的,身高体重也是数值,也可以进行是否相等的比较,有顺序(可以比较大小),同样具备等间距特性,可以进行加减运算,除此之外,还可以进行乘除计算(与上面两组变量的不同之处)
观测,变量,与数据矩阵
观测
我们通常拿到了数据后,都会进行简单的整理,整理成表格或者其它
如果我们是整理成数据表格
| 性别 | 教育程度 | 出生年份 | 身高 |
|---|---|---|---|
| 女 | 本科 | 1999 | 165 |
| 男 | 本科 | 2000 | 172 |
| 男 | 高中 | 2003 | 178 |
| 女 | 博士 | 1995 | 168 |
表格中一行数据我们称之为一次观测(observation)
我们在一次观测中,进行了多个取值的记录
变量
表格中一列就是一个变量(variable)
上面的表格中就含有性别、教育程度、出生年份、身高四个变量
数据矩阵
整个表格我们称为数据矩阵(data matrix)
测量尺度
我们可以把测量尺度想象成不同的尺子,不同的尺子可以测量不同的事物(比如说我们用直尺可以测量一个物体的长度和高度,但是不能测量重量),不同的尺子具有不同的属性(秤测量重量,表测量温度......),这些属性使得这些尺子具有夫测量某种特定数据的能力
抽象数字系统
在数学世界中,我们使用抽象数字系统,这个系统具有许多不同的属性,不同的属性集合对应不同的尺子
抽象数字系统的属性
四个属性
- 每一个数字有其独特的含义(identit)
我们之前举例到的性别和颜色,我们把不同的数字赋值不同的类别中
- 数字具有从小到大的固有顺序(magnitude)
我们把教育程度从低到高赋子数字以后,这些数字就具有了固有的大小
- 任意位置的单位间距是相同的(equal intervals)
2019和2018年之间相差的一年等于2015年和2016年相差的一年
- 零(0)表示被测量的属性不存在(absolute/true zero)
身高为零代表身高不存在
测量
- 测量是指根据一定的规则,把数字(numbers)分配给观测(observations)
- 把数字分配给观测的方式,决定了测量尺度(scale of measurement)
- 每个测量尺度代表抽象数字系统的特定属性或属性集合
名目尺度(nominal scale)
名目尺度是根据事物的特征对其进行分类的一种尺度
- 只具备第一个属性,即每一个数字有其独特的含义
- 如果一个尺度可以根据名目尺度进行测量,那么这个变量就称为名目变量(nominal variable)
(如性别、颜色...)
不妨把无序分类变量这个名称理解成是这类变量的俗名,而名目变量理解成学名
次序尺度(ordinal scale)
次序尺度是根据事物的特征对其进行等级排序的一种尺度
-
具备前两个属性
- 每一个数字有其独特的含义
- 数字具有从小到大的固有顺序
-
如果一个尺度可以根据次序尺度进行测量,那么这个变量就称为次序变量(ordinal variable)
(如教育程度,评价...)
等距尺度(interval scale)
等距尺度是指数值之间的单位间隔是等距的一种尺度
-
具备前三个属性
- 每一个数字有其独特的含义
- 数字具有从小到大的固有顺序
- 任意位置的单位间距是相同的
-
没有真零点,则乘除运算结果不唯一(无意义),比如温度中,摄氏度下的0和华氏度下的0是不相等的
-
如果一个尺度可以根据等距尺度进行测量,那么这个变量就称为等距变量(interval variable)
(如年份、温度、时间...)
等比尺度(ratio scale)
等比尺度是具有等距尺度的所有特性并且零点有意义的尺度
-
具备所有四个属性
- 每一个数字有其独特的含义
- 数字具有从小到大的固有顺序
- 任意位置的单位间距是相同的
- 零(0)表示被测量的属性不存在(有真零点,因此可以进行乘除运算)
-
如果一个尺度可以根据等比尺度进行测量,那么这个变量就称为等比变量(ratio variable)
(如身高、体重...)
测量尺度的重要性
测量尺度决定了可以进行哪些逻辑与数学运算和使用哪种统计方法
| 尺度 | 举例 | 逻辑与数学运算 | 类别 |
|---|---|---|---|
| 名目 | 性别、颜色 | =、≠ | 定性/(无序)分类变量 |
| 次序 | 教育程度、评价 | =、≠、>、< | 定性/(有序)分类变量 |
| 等距 | 温度、年份、时间 | =、≠、>、<、+、- | 定量/数值变量 |
| 等比 | 身高、体重、年龄 | =、≠、>、<、+、-、*、/ | 定量/数值变量 |
对应数值变量还分为离散型变量和连续型变量
当我们拿到一个变量后,我们可以通过下图的方式进行判断