携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第1天,点击查看活动详情
分类模型还可用于预测未知记录(没有类标签的数据点)的类标签。 如图F.1所示,分类模型可以被视为黑盒子,当显示未知记录的属性集时,它会自动分配类标签。 假设我们被赋予了一个被称为Gitta怪物的生物的以下特征:
| Name | Body Tem. | Skin Cover | Gives Birth | Aquatic Creature | Aerial Creature | Has Legs | Hibernates | Class Label |
|---|---|---|---|---|---|---|---|---|
| Gitta | Cold-blooded | Scales | No | No | No | Yes | Yes | ? |
我们可以使用表J.1所示的数据集构建的分类模型来确定该生物所属的类。
分类技术最适合于预测或描述具有二元或名词性(名字性)类别的数据集。它们对序数类别的效果较差(例如,将某人归类为高,中或低收入群体的成员),因为他们不考虑类别中的隐含顺序。其他形式的关系,例如类别之间的子类 - 超类关系(例如,人类和猿类是灵长类动物(子类),反过来又是哺乳动物(超类)的子类)也被忽略。 我们大都仅关注二进制或名字类标签。
分类技术(或分类器)是从输入数据集构建分类模型的系统方法。例如决策树分类器、基于规则的分类器、神经网络、支持向量机和naeve Bayes分类器。每种技术都使用学习算法来确定最适合输入数据的属性集和类标签之间关系的模型。
由学习算法生成的模型应该既能很好地拟合输入数据,又能正确预测以前从未见过的数据的类标签。因此,学习算法的一个关键目标是构建具有良好泛化能力的模型; 即,准确预测先前未知数据的类标签的模型。
图J.3显示了解决分类问题的一般方法。 首先,必须提供由已知类别标签的数据组成的训练集。 训练集用于构建分类模型,随后将其应用于测试集,该测试集由具有未知类标签的数据组成。
一个分类模型性能的评估是依据测试数据被正确和不正确预测的次数。这些计数列在称为混淆矩阵的表格中。表J.2描述了二进制分类问题的混淆矩阵。表格中的每个条目fij表示来自于类i被预测为类j的数据数量。例如,f01是来自0类错误地预测为1类的数据数量。
根据混淆矩阵中的条目,模型所做的正确预测总数为(f11 + f00),错误预测的总数为(f10 + f01)。