机器学习分类

246 阅读5分钟

二分类

示例包括:

电子邮件垃圾邮件检测(是否为垃圾邮件) 流失预测(流失与否) 转化预测(购买或不购买) 通常,二分类任务涉及一个属于正常状态的类别和一个属于异常状态的类别。

例如,“ 非垃圾邮件 ”是正常状态,而“ 垃圾邮件 ”是异常状态。另一个示例是“ 未检测到癌症 ”是涉及医学检查任务的正常状态,而“ 检测到癌症 ”是异常状态。

正常状态的类分配为类别标签0,状态异常的类分配为类别标签1。

通常先预测每个样本的伯努利概率分布模型,来对二分类任务进行建模。

伯努利分布是离散的概率分布,它涵盖了事件的结果为0或1的两种情况。假如结果预测为1,对于分类来说,这意味着模型预测了数据属于1类,也可以说是异常状态。

可以用于二分类的流行算法包括:

  • 逻辑回归(Logistic Regression)
  • k最近邻(k-Nearest Neighbors)
  • 决策树(Decision Trees)
  • 支持向量机(Support Vector Machine)
  • 朴素贝叶斯(Naive Bayes)

多类别分类

多类别分类是指具有两个以上类别标签的分类任务。

示例包括:

  • 人脸分类
  • 植物种类分类
  • 光学字符识别 与二分类不同,多类别分类没有正常和异常结果的概念。相反,样本被分类为属于一系列已知类别中的一个。 在某些问题上,类标签的数量可能非常大。例如,模型可以预测照片属于面部识别系统中的数千个或数万个面部之一。 涉及预测单词序列的问题,例如文本翻译模型,也可以视为一种特殊类型的多类别分类。要预测的单词序列中的每个单词都涉及一个多类分类,其中词汇量定义了可以预测的可能类别的数量,其数量可能是成千上万个单词。 通常使用每个样本的Multinoulli概率分布的模型来对多类分类任务进行建模。

所述Multinoulli概率分布是覆盖情况下的事件将有一个明确的结果,例如离散概率分布ķ在{1,2,3,...,ķ }。对于分类,这意味着模型可以预测样本属于每个类别标签的概率。

许多用于二分类的算法也可以用于解决多分类问题。 逻辑回归(Logistic Regression)

支持向量机(Support Vector Machine)

可用于多类分类的流行算法包括:

  • k最近邻(k-Nearest Neighbors)

  • 决策树(Decision Trees)

  • 朴素贝叶斯(Naive Bayes)

  • 随机森林(Random Forest)

  • 梯度Boosting(Gradient Boosting) 这涉及使用一种策略,该策略为每个类别与所有其他类别(称为“一对多”)拟合多个二分类模型,或者为每对类别(称为“一对一”)拟合一个模型。

  • 一对多:为每个类别与其它所有类别拟合出一个二分类模型。

  • 一对一:为每对类别拟合一个二分类模型。 可以使用这些策略进行多分类的二分类算法包括:

多标签分类

多标签分类[7]是指具有两个或多个分类标签的分类任务,其中每个样本可以预测一个或多个分类标签。

考虑照片分类[8]的示例,其中给定的照片可能在场景中具有多个对象,并且模型可以预测照片中存在多个已知对象,例如“ 自行车 ”,“ 苹果 ”,“ 人 ”等。

通常使用预测多个输出的模型来对多标签分类任务进行建模,而每个输出都将作为伯努利概率分布(0,1分布)进行预测。本质上,这是对每个样本进行多个二分类预测的模型。

用于二分类或多类分类的分类算法不能直接用于多标签分类。可以使用标准分类算法的专用版本,即所谓的多标签版本算法,包括:

多标签决策树(Multi-label Decision Trees)

多标签随机森林(Multi-label Random Forests)

多标签梯度Boosting(Multi-label Gradient Boosting)

不平衡分类

不平衡分类是指在分类任务中,每个类别中的样本数不均匀分布。

通常,不平衡分类任务是二分类任务,其中训练数据集中的大多数样本属于正常类,而少数样本属于异常类。

示例包括:

  • 欺诈识别
  • 离群值检测
  • 医学诊断测试

这些问题被建模为二分类任务,尽管可能会需要专门的技术。

通过对多数类别进行欠采样或过采样,使用专门的建模算法来修正训练数据集中样本的组成。

示例包括:

  • 随机欠采样[11]
  • SMOTE过采样[12]

当将模型拟合到训练数据集上时,可以使用专门的建模算法来关注少数群体,例如成本敏感的机器学习算法。

示例包括:

  • 成本敏感逻辑回归(Cost-sensitive Logistic Regression)
  • 成本敏感决策树(Cost-sensitive Decision Trees)
  • 成本敏感支持向量机(Cost-sensitive Support Vector Machines)

最后,由于报告分类准确性可能会产生误差,因此可能需要其他性能指标来进行评估。

示例包括:

  • 精确度 Precision
  • 召回度 Recall
  • F-Measure