《机器学习》学习笔记(一)

237 阅读2分钟

数据集

在进行机器学习前,我们首先要有数据,数据由以下部分构成:
  • 属性(特征):反映事件或对象在某方面的表现或性质的事项

  • 属性值:属性上的取值,例如属性为西瓜色泽,则青绿、乌黑作属性值

image.png

学习,训练

从数据中学得模型的过程称为“学习”(learning)或“训练”(training), 这个过程通过执行某个学习算法来完成. 我们需要确定好由虚拟样本构成的训练集,找寻数据存在的潜在规律。在训练时我们要确定训练样本的“结果”信息,称为“标记”(label),比如“好瓜”、“坏瓜”就是标记,在训练中就要根据全部属性值来判断样例是哪种标记类型。

存在情况:

  • 过拟合

  • 欠拟合

对数据集进行处理,从中产生训练集和测试集

1. 留出法

image.png 训练/测试集的划分要尽可能保持数据分布的一致性,一般将大约2/3~4/5的样本用于训练,剩余样本用于测试

2. 交叉验证法

image.png 其中存在一个特例:留一法

  • 优点:与数据集拟合较好,评估结果比较准确
  • 缺点:计算复杂,计算开销大

3. 自助法

image.png

  • 优点:自助法在数据集较小、难以有效划分训练/测试集时很有用;此外,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处.
  • 缺点:自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差

在初始数据量足够时,常用留出法和交叉验证法

性能度量

对学习器的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需要有衡量模型泛化能力的评价标准, 这就是性能度量。
  • 回归任务最常使用的性能度量:均方误差

image.png

  • 错误率和精度(既适用于二分类任务,也适用于多分类任务)

image.png

image.png

  • 查准率与查全率

对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)四种情形,令TP、 FP、 TN、 FN分别表示其对应的样例数,则显然有TP+FP+TN+FN =样例总数。分类结果矩阵图如下:

image.png

查准率P与查全率R分别定义为

image.png

  • F1度量

image.png


问题

  1. 对提到的一些算法不是很理解,还需要结合视频进行学习。
  2. 无法推出猪出现异常行为的集中时间段,仍要进一步观察。