数据集

在进行机器学习前，我们首先要有数据，数据由以下部分构成：

属性（特征）：反映事件或对象在某方面的表现或性质的事项
属性值：属性上的取值，例如属性为西瓜色泽，则青绿、乌黑作属性值

学习，训练

从数据中学得模型的过程称为“学习”(learning)或“训练”(training), 这个过程通过执行某个学习算法来完成．我们需要确定好由虚拟样本构成的训练集，找寻数据存在的潜在规律。在训练时我们要确定训练样本的“结果”信息，称为“标记”（label），比如“好瓜”、“坏瓜”就是标记，在训练中就要根据全部属性值来判断样例是哪种标记类型。

存在情况：

过拟合
欠拟合

对数据集进行处理，从中产生训练集和测试集

1. 留出法

训练/测试集的划分要尽可能保持数据分布的一致性，一般将大约2/3~4/5的样本用于训练，剩余样本用于测试

2. 交叉验证法

其中存在一个特例：留一法

优点：与数据集拟合较好，评估结果比较准确
缺点：计算复杂，计算开销大

3. 自助法

优点：自助法在数据集较小、难以有效划分训练／测试集时很有用；此外，自助法能从初始数据集中产生多个不同的训练集，这对集成学习等方法有很大的好处．
缺点：自助法产生的数据集改变了初始数据集的分布，这会引入估计偏差

在初始数据量足够时，常用留出法和交叉验证法

性能度量

对学习器的泛化性能进行评估，不仅需要有效可行的实验估计方法，还需要有衡量模型泛化能力的评价标准，这就是性能度量。

回归任务最常使用的性能度量：均方误差

错误率和精度（既适用于二分类任务，也适用于多分类任务）

查准率与查全率

对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)四种情形，令TP、 FP、 TN、 FN分别表示其对应的样例数，则显然有TP+FP+TN+FN ＝样例总数。分类结果矩阵图如下：

查准率P与查全率R分别定义为

F1度量

问题

对提到的一些算法不是很理解，还需要结合视频进行学习。
无法推出猪出现异常行为的集中时间段，仍要进一步观察。

《机器学习》学习笔记（一）

数据集

学习，训练

性能度量

问题