机器学习（一）：方法分类、评价标准1、交叉验证法：常用于数据不是很充足的时候，分为简单交叉验证、k折交叉验证和留一交叉验

基础概览

1、交叉验证法：常用于数据不是很充足的时候，分为简单交叉验证、k折交叉验证和留一交叉验证（样本量≤50）。k折交叉验证是将训练集划分为k个大小相似的互斥子集，每次用k-1个子集的并集作为训练集，余下的子集作为验证集得到k次训练和验证，最终返回k个测试结果的均值，最后选择损失函数最小的模型和参数。交叉验证法的目的在于选择合适的模型和参数。数据集较小时，当有多个候选模型的时候用交叉验证法进行模型筛选；当只有一个模型的时候用交叉验证对该模型进行评估。 2、模型误差与拟合效果：

模型误差=偏差（Bias）+方差（Variance）+数据自身误差

误差是用于测量模型性能的指标。在模型误差中，偏差是因模型无法表示基本数据的复杂度造成的，方差是因模型对训练所用数据过度敏感造成的。

偏差：度量了学习算法的预测值和真实值的偏离程度，刻画的是算法自身的拟合能力，当模型不够复杂而无法捕捉基本关系时就会出现较大偏差，准确率会降低，也就是欠拟合。

方差：度量了同样大小的训练集的变动所导致的学习性能变化，刻画的是数据扰动的影响，即模型的稳定性，方差过高表明模型无法将预测结果泛化到更多数据，而是对训练集高度敏感，也就是过拟合。规律：模型的复杂度越低，偏差越大方差越小（欠拟合）；模型的复杂度越高，则偏差越小方差越大（过拟合）。

过拟合与欠拟合： 解决思路：

情形	表现	方法
欠拟合	模型在训练和预测评估指标都不好	1、寻找更好的特征；2、用更多的特征（增加复杂度）
过拟合	模型在训练集上的评估指标表现很好，但在测试集和新数据上的表现很差	1、增大数据集（噪声点比率降低）；2、减少数据特征（降低复杂度）；3、正则化方法；4、交叉验证法；5、降低模型复杂度（如决策树剪枝）；6、集成学习方法。
3、评价标准

分类问题：

-	预测1	预测0	合计
实际1	TP	FN	TP+FN
实际0	FP	TN	FP+TN
合计	TP+FP	TN+FN	TP+FP+TN+FN

评价指标	公式	理解
准确率(Accuracy)	(TP+TN)/(TP+FP+TN+FN)	预测正确的样本比例，—>1越好
精确率(Precision)（查准率）	TP/(TP+FP)	预测为1的样本中实际为1的样本比例
召回率(Recall)（敏感率、真正率）	TP/(TP+FN)	实际为1的样本中预测为1的样本比例，如地震预测，发生1次的危害很大，该指标—>1越好
特异度(Specificity)	SP=TN/(FP+TN)	和召回率相反，实际为0的样本中预测为0的比例
F比值	F=2/(1/精确率+1/召回率)	平衡精确率和召回率

二分类问题：
回归问题：均方误差MSE、均方根误差RMSE、评价绝对误差MAE