携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第1天,点击查看活动详情
如何构建它们以及如何使用它们来分类新数据
分类是将分析对象分配给若干预定义类别中的某一个,是一个有着许多不同应用的常见方法。例如,基于信息标题和内容检测垃圾邮件信息。根据MRI扫描结果将细胞分类为恶性或良性,并根据其形状对星系进行分类。
决策树的主要作用是用来分类的。分类分析的流程通常是多特征数据经过分类模型的分类分析后会得到一个类标签,这个类标签标识了这个数据的类别
本章将介绍分类的基本概念,描述一些例如模型过拟合等关键问题,提出评价和比较分类技术性能的方法。虽然它主要关注一种被称为决策树归纳法的技术,但是本章的大部分讨论也适用于其他分类技术,其中许多技术都在随后章节中介绍。
分类算法
分类任务的输入数据是记录的集合。 每个记录(也称为实例或示例)用元组(x,y)标识,其中x是属性(特征)集,y是特殊属性(特征),指定为类标签(也称为类别或目标属性)。
表J.1显示了用于将脊椎动物分类为以下类别之一的样本数据集:哺乳动物,鸟类,鱼类,爬行动物或两栖动物。属性集包括无脊椎动物的属性,例如其体温,皮肤覆盖,繁殖方法,飞行能力和生活在水中的能力。虽然表j.1中的属性大部分是离散的,但是属性集也可以包含连续的特性。另一方面,类标签必须是一个离散属性。这是区分分类和回归的关键特征,一个预测模型(回归模型)的y是连续属性。
如何分类: 分类的方法是学习一个目标函数f,该目标函数f能够将每个属性集x映射到预定义的类标签y中的一个。
目标函数也可以非正式地称为分类模型。 分类模型可用于以下目的。
描述性建模 : 分类模型可以作为区分不同类对象的解释工具。 例如,对于生物学家和其他人来说,有一个描述性模型可以用来总结表J.1中所示的数据,并解释什么样的特征把脊椎动物定义为哺乳动物,爬行动物,鸟类,鱼类或两栖动物是十分有意义的。