机器学习(一):方法分类、评价标准

690 阅读3分钟

基础概览

1、交叉验证法:常用于数据不是很充足的时候,分为简单交叉验证、k折交叉验证和留一交叉验证(样本量≤50)。k折交叉验证是将训练集划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的子集作为验证集得到k次训练和验证,最终返回k个测试结果的均值,最后选择损失函数最小的模型和参数。 交叉验证法的目的在于选择合适的模型和参数。数据集较小时,当有多个候选模型的时候用交叉验证法进行模型筛选;当只有一个模型的时候用交叉验证对该模型进行评估。 2、模型误差与拟合效果

  • 模型误差=偏差(Bias)+方差(Variance)+数据自身误差

误差是用于测量模型性能的指标。在模型误差中,偏差是因模型无法表示基本数据的复杂度造成的,方差是因模型对训练所用数据过度敏感造成的。

偏差:度量了学习算法的预测值和真实值的偏离程度,刻画的是算法自身的拟合能力,当模型不够复杂而无法捕捉基本关系时就会出现较大偏差,准确率会降低,也就是欠拟合。

方差:度量了同样大小的训练集的变动所导致的学习性能变化,刻画的是数据扰动的影响,即模型的稳定性,方差过高表明模型无法将预测结果泛化到更多数据,而是对训练集高度敏感,也就是过拟合。 规律:模型的复杂度越低,偏差越大方差越小(欠拟合);模型的复杂度越高,则偏差越小方差越大(过拟合)。

  • 过拟合与欠拟合: 解决思路
情形表现方法
欠拟合模型在训练和预测评估指标都不好1、寻找更好的特征;2、用更多的特征(增加复杂度)
过拟合模型在训练集上的评估指标表现很好,但在测试集和新数据上的表现很差1、增大数据集(噪声点比率降低);2、减少数据特征(降低复杂度);3、正则化方法;4、交叉验证法;5、降低模型复杂度(如决策树剪枝);6、集成学习方法。
3、评价标准
  • 分类问题
-预测1预测0合计
实际1TPFNTP+FN
实际0FPTNFP+TN
合计TP+FPTN+FNTP+FP+TN+FN
评价指标公式理解
准确率(Accuracy)(TP+TN)/(TP+FP+TN+FN)预测正确的样本比例,—>1越好
精确率(Precision)(查准率)TP/(TP+FP)预测为1的样本中实际为1的样本比例
召回率(Recall)(敏感率、真正率)TP/(TP+FN)实际为1的样本中预测为1的样本比例,如地震预测,发生1次的危害很大,该指标—>1越好
特异度(Specificity)SP=TN/(FP+TN)和召回率相反,实际为0的样本中预测为0的比例
F比值F=2/(1/精确率+1/召回率)平衡精确率和召回率
  • 二分类问题

  • 回归问题:均方误差MSE、均方根误差RMSE、评价绝对误差MAE