【机器学习】-算法分类介绍

1,182 阅读3分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第20天,点击查看活动详情

1. 监督学习

定义:

  • 输入数据是由输入特征值和目标值所组成
  • 函数的输出可以是一个连续的值(称为回归)
  • 或者是输出是有限个离散值(称为分类)

在反馈映射方面:监督学习输出的是之间的关系,可以告诉算法什么样的输入对应着什么样的输出

在反馈时间方面:做了比较坏的选择会立刻反馈给算法

在输入特征方面:输入是独立同分布的

1.1 回归问题

所谓回归问题,就是根据样本集拟合出一条连续曲线,例如房价预测问题

1.2 分类问题

得到的结果是离散的,例如按猫的品种对猫猫进行分类,得到的不是连续值,而是离散值,比如美短,蓝猫,加菲猫,布偶猫等等。

1.3 监督学习训练方式

首先,得到一些没有标记过的数据。让专家进行相应的预测,得到一些标记物的数据。然后,通过标记物的数据,训练这个模型。此时,得到的就是一个监督学习的训练模型。

1.4 独立同分布

输入空间中的所有样本服从一个隐含未知的分布,训练数据所有样本都是独立地从这个分布上采样而得。

  • 独立:每次抽样之间没有关系,不会相互影像
  • 同分布:每次抽样,样本服从同一个分布
  • 独立同分布:每次抽样之间独立而且同分布

机器学习训练模型的时候,初期为了让模型训练起来比较简单,一般是要求的训练数据和测试数据都符合独立同分布的。但是也没有必须要求这样。

2. 无监督学习

定义:

  • 输入数据是由输入特征值组成,没有目标值
  • 输入数据没有被标记,也没有确定的结果。样本数据类别未知
  • 需要根据样本间的相似性对样本集进行类别划分

3. 无监督学习与有监督学习对比

  1. 监督学习:输入的数据有特征值,也有目标值

    • 目标值连续:回归
    • 目标值离散:分类
  2. 无监督学习:输入的数据有特征值,但是无目标值

  3. 半监督学习

定义:训练集同时包含有标记样本数据未标记样本数据

3.1 半监督学习训练方式

首先,拿到一些大量的没有标记的数据,从中取少部分数据让专家进行标记,标记完成之后,我们通过这些少量的数据训练出一个初步的模型。初步的模型还要用那些未标记的数据来得到最后整体模型。

3.2 半监督与监督学习的区别

主要是看标记数据量的多少,以及看最后训练这个模型,用没用到一些没有标记物的数据