1. 基本概念
分类任务的数据由一组实例(记录)组成。每个这样的实例都以元组 (x,y) 为特征,其中 x 是描述实例的属性值集合,y 是实例的类别标签。属性集 x 可以包含任何类型的属性,而类别标签 y 必须是可分类的。
分类模型(classification model) 是属性集和类标签之间关系的抽象表示。
分类模型在数据挖掘中担当两个重要角色:
- 预测模型(predictive model) 来对先前未标记的实例进行分类。一个好的分类模型必须以快速的响应时间提供准确的预测。
- 描述性模型(descriptive model) 来识别区分不同类别实例的特征。
注意:
- 用作预测变量的属性类型没有限制
- 类别标签必须是标称类型。这将分类与其他预测建模任务(如回归)区分开来。
2. 一般的分类框架
使用学习算法从训练数据建立分类模型的过程称为归纳(induction)。这个过程通常也被描述为“学习一个模型”或“建立一个模型”。
在未知的测试实例上应用分类模型来预测它们的类别标签的过程称为演绎(deduction)。
因此,分类过程涉及两个步骤:
- 归纳:学习模型
- 演绎:应用模型
归纳和演绎步骤应该分开进行,训练集和测试集应该是相互独立的,以确保归纳模型能够准确预测以前从未遇到过的实例的类别标签。具有这种预测性见解的模型被称为具有良好的泛化性能(generalization performance)
3. 模型评估
3.1 混淆矩阵
模型的性能可以通过比较实例的预测标签和真实标签来评估。
上表中,每个条目 表示来自第 类的预测为类 的实例的数量。例如, 是将类 0 错误地预测为类 1 的实例数量。
模型进行正确预测的数量是 ,不正确预测的数量是 。
3.2 准确率
对于二分类问题,模型的准确率由下式给出:
3.3 错误率
对于二分类问题,其定义如下: