目录
- 数据类型简介
- 变量类型(定性变量,定量变量)
- 测量尺度(名义,顺序,间隔,比率)
- 为什么数据类型很重要
- 统计方法
数据类型简介
对不同的数据类型(也称为测量尺度)有一个很好的理解,是进行探索性数据分析(EDA)的关键先决条件,因为你只能对特定的数据类型使用特定的统计测量。
你还需要知道正在处理的数据类型,以便选择正确的可视化方法。可以将数据类型看作是对不同类型的变量进行分类的一种方法。我们将讨论变量的主要类型,并查看每个变量的示例。
变量类型
定性变量
非数值的变量,也称为属性变量。如性别、出生地、婚姻状况、头发颜色等。
对于定性变量,我们通常关注的是其中每一类别有多少或占多大比例。
可视化方法:条形图、饼图。
定量变量
可以用数值表示的特征。定量变量又分为离散型和连续型。
离散变量(discrete variable) 只能取某些特定的值,且不同的取值之间存在一定的“间隙”。如一栋住宅中卧室的间数,某一课程的选课人数。离散变量通常是通过计数得到的。
你可以通过询问以下两个问题来检查是否处理的是离散数据: 能够计算数量吗? 能否将数据分成更小的部分?
连续变量(continuous variable) 的观测值可以取某一区间内的任何值。如轮胎气压,GPA。连续变量一般是通过测量得到的。
测量尺度
名义尺度数据
利用名义尺度(nominal level) 进行测量时,定性变量的各个观测值之间没有特定的顺序标志,我们只能进行分类和计数运算。
可以把它们当成”标签”。注意,名义数据没有顺序。因此,如果你要更改其值的顺序,其含义不会更改。你可以在下面看到两个名词特征的例子:
左边描述一个人是否结婚的特征将被称为“二分法” ,这是一种只包含两个类别的名义尺度的类型。
顺序尺度数据
顺序尺度(ordinal level) 比名义尺度高一个层次,数据表示离散的和有序的单位。因此,它几乎与名义数据相同,只是排序很重要。你可以在下面看到一个例子:
请注意,小学和高中之间的差异与高中和大学之间的差异是不同的。值之间的差异并不真正知道,这是顺序数据的主要限制。正因为如此,顺序尺度通常被用来衡量非数字的特征,比如幸福感、客户满意度等等。
间隔尺度数据
间隔尺度(interval level) 比顺序尺度又高一个层次,间隔尺度数据表示具有相同差异的有序单位。因此,当我们有一个变量,其中包含有序的数值时,我们称之为间隔尺度数据,并且我们知道这些值之间的确切差异。一个例子是一个包含给定地点温度的特征,如下图所示:
间隔尺度数据的问题在于它们没有一个“真零”。就我们的例子而言,这意味着没有温度这回事。对于间隔尺度数据,我们可以加减,但不能乘除或计算比值。由于没有真零点,许多描述性和推理性统计学不能应用。
比率尺度数据
比率尺度(ratio level) 是最高层次的测量尺度,是具有相同差异的有序单位。比率尺度数据具有间隔尺度的全部特征,而且零点和两个数值之比具有实际意义。比较好的例子是身高、重量、高度、工资等。
事实上,所有的定量数据都是比率尺度数据。
为什么数据类型很重要
数据类型是一个重要的概念,因为统计方法只能用于某些数据类型。你必须用不同的方法分析连续数据与分类数据,否则将导致分析错误。因此,了解正在处理的数据类型可以帮助你选择正确的分析方法。
统计方法
名义尺度数据
在处理名义数据时,你通过以下方式收集信息:
频率: 频率是某事在一段时间内或数据集内发生的比率。
百分比
可视化方法:可以使用饼图或条形图。
在数据科学中,你可以使用一种热编码,将名义数据转换为数字特性。
顺序数据
在处理顺序数据时,可以使用与处理名义数据相同的方法,但是也可以使用一些其他工具。
因此,可以用频率和百分比来分析顺序数据。可以用饼图和条形图来可视化。
此外,你可以使用百分位数、中位数、众数和四分位差来分析数据。
在数据科学中,可以使用一种标签编码,将顺序数据转换为数字特性。
连续数据
在处理连续数据时,可以使用最多的方法来描述数据。你可以使用百分位数、中位数、四分位差、均值、众数、标准差和极差来分析数据。
可视化方法: 为了使连续数据可视化,你可以使用直方图或箱线图。直方图可以检查分布的中心趋势、变化性、形态和峰度。注意,直方图无法显示是否有异常值。箱线图可以。