1. 基本概念

分类任务的数据由一组实例（记录）组成。每个这样的实例都以元组 (x,y) 为特征，其中 x 是描述实例的属性值集合，y 是实例的类别标签。属性集 x 可以包含任何类型的属性，而类别标签 y 必须是可分类的。

分类模型(classification model) 是属性集和类标签之间关系的抽象表示。

分类模型在数据挖掘中担当两个重要角色：

注意：

2. 一般的分类框架

使用学习算法从训练数据建立分类模型的过程称为归纳(induction)。这个过程通常也被描述为“学习一个模型”或“建立一个模型”。

在未知的测试实例上应用分类模型来预测它们的类别标签的过程称为演绎(deduction)。

因此，分类过程涉及两个步骤：

归纳和演绎步骤应该分开进行，训练集和测试集应该是相互独立的，以确保归纳模型能够准确预测以前从未遇到过的实例的类别标签。具有这种预测性见解的模型被称为具有良好的泛化性能(generalization performance)

模型的性能可以通过比较实例的预测标签和真实标签来评估。

上表中，每个条目 $f_{ij}$ 表示来自第 $i$ 类的预测为类 $j$ 的实例的数量。例如， $f_{01}$ 是将类 0 错误地预测为类 1 的实例数量。

模型进行正确预测的数量是 $(f_{11}+f_{00})$ ，不正确预测的数量是 $(f_{10}+f_{01})$ 。

$准确率= \frac {正确预测的数量} {总预测数量}$

对于二分类问题，模型的准确率由下式给出：

$准确率= \frac {f_{11} + f_{00}} {f_{11} + f_{10} + f_{01} + f_{00}}$

对于二分类问题，其定义如下：

$错误率= \frac {错误预测的数量} {总预测数量} = \frac {f_{10} + f_{01}} {f_{11} + f_{10} + f_{01} + f_{00}}$