机器学习中的误差主要来源有两种:
bias和variance
当模型复杂度低时,bias大variance小
当模型复杂度高时,bias小variance大
这也是欠拟合与过拟合的一种表现形式
进行非常大量的实验后,得到了模型的平均值(蓝线),真值为黑线,可以看到五次的模型bias明显小于一次模型。
bias大怎么办
引入更多的特征因素,重新构造更复杂的模型
variance大怎么办
可以使用更多的训练数据,但是训练数据有时并不容易获取,这时可以进行正则化。不过正则化会一程度上增大bias。
不建议根据测试数据的误差对原模型再进行修改,因为这样做会引入测试数据的bias。
为了得到最好的模型,可以将训练数据分成N份,进行N次验证,每次将其中一份作为验证数据,其余作为训练数据。这种方式称为N折交叉验证