基础概览
1、交叉验证法:常用于数据不是很充足的时候,分为简单交叉验证、k折交叉验证和留一交叉验证(样本量≤50)。k折交叉验证是将训练集划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的子集作为验证集得到k次训练和验证,最终返回k个测试结果的均值,最后选择损失函数最小的模型和参数。
交叉验证法的目的在于选择合适的模型和参数。数据集较小时,当有多个候选模型的时候用交叉验证法进行模型筛选;当只有一个模型的时候用交叉验证对该模型进行评估。
2、模型误差与拟合效果:
- 模型误差=偏差(Bias)+方差(Variance)+数据自身误差
误差是用于测量模型性能的指标。在模型误差中,偏差是因模型无法表示基本数据的复杂度造成的,方差是因模型对训练所用数据过度敏感造成的。
偏差:度量了学习算法的预测值和真实值的偏离程度,刻画的是算法自身的拟合能力,当模型不够复杂而无法捕捉基本关系时就会出现较大偏差,准确率会降低,也就是欠拟合。
方差:度量了同样大小的训练集的变动所导致的学习性能变化,刻画的是数据扰动的影响,即模型的稳定性,方差过高表明模型无法将预测结果泛化到更多数据,而是对训练集高度敏感,也就是过拟合。
规律:模型的复杂度越低,偏差越大方差越小(欠拟合);模型的复杂度越高,则偏差越小方差越大(过拟合)。
- 过拟合与欠拟合:
解决思路:
情形 | 表现 | 方法 |
---|---|---|
欠拟合 | 模型在训练和预测评估指标都不好 | 1、寻找更好的特征;2、用更多的特征(增加复杂度) |
过拟合 | 模型在训练集上的评估指标表现很好,但在测试集和新数据上的表现很差 | 1、增大数据集(噪声点比率降低);2、减少数据特征(降低复杂度);3、正则化方法;4、交叉验证法;5、降低模型复杂度(如决策树剪枝);6、集成学习方法。 |
3、评价标准 |
- 分类问题:
- | 预测1 | 预测0 | 合计 |
---|---|---|---|
实际1 | TP | FN | TP+FN |
实际0 | FP | TN | FP+TN |
合计 | TP+FP | TN+FN | TP+FP+TN+FN |
评价指标 | 公式 | 理解 |
---|---|---|
准确率(Accuracy) | (TP+TN)/(TP+FP+TN+FN) | 预测正确的样本比例,—>1越好 |
精确率(Precision)(查准率) | TP/(TP+FP) | 预测为1的样本中实际为1的样本比例 |
召回率(Recall)(敏感率、真正率) | TP/(TP+FN) | 实际为1的样本中预测为1的样本比例,如地震预测,发生1次的危害很大,该指标—>1越好 |
特异度(Specificity) | SP=TN/(FP+TN) | 和召回率相反,实际为0的样本中预测为0的比例 |
F比值 | F=2/(1/精确率+1/召回率) | 平衡精确率和召回率 |
-
二分类问题:
-
回归问题:均方误差MSE、均方根误差RMSE、评价绝对误差MAE