10 通过开发集和度量指标加速迭代
我们很难事先就知道哪种方法最适合解决面临的新问题,即使是一个经验丰富的机器学习研究员,他通常也需要在发现令人满意的方案前尝试不同的想法。在建立一个机器学习系统时,我往往会这样:
-
尝试一些关于系统构建的想法(idea) 。
-
使用代码(code) 实现想法。
-
根据实验(experiment) 结果判断想法是否行得通。(第一个想到的点子一般都行不通!)在此基础上学习总结,从而产生新的想法,并保持这一迭代过程。

上图展示的是前面所提到的迭代过程,循环得越快,你也将进展得越快。此时拥有开发集、测试集和度量指标的重要性便得以体现了:每当你有了一个新想法,在开发集上评估其性能可以帮你判断当前的方向是否正确。
假如你没有一个特定的开发集和度量指标,则需要在每次开发新的分类器时把它整合到 app 中,并且体验几个小时来了解分类器的性能是否有所改进。这相当耗费时间!另外,如果你的团队将分类器的准确率从 95.0% 提高到 95.1%,这 0.1% 的提升可能很难被检测出来。但是积少成多,通过不断积累这 0.1% 的改进,你的系统将取得很大的改进。拥有开发集和度量指标,可以使你更快地检测出哪些想法给系统带来了小(或大)的提升 ,从而快速确定要继续研究或者是要放弃的方向。 敬请期待第11章: 何时修改开发集、测试集和度量指标 机器学习训练秘籍已发布章节第1-4章 第5章 第6章 第7章 第8章 第9章 英文版最新章节请在这里注册http://www.mlyearning.org/ 为了让大家尽快接触到机器学习训练秘籍中文版,我们在最短的时间内组织了翻译工作。若有任何错误,还请包涵。翻译内容仍在持续改进中,如果大家有任何意见和建议,欢迎给我们留言。 欢迎扫码关注我们的公众号!谢谢!
