探索机器学习的广袤天地:模型选择与评估
3. 模型选择与评估
3.1. 交叉验证:评估估计器性能
- 3.1.1. 计算交叉验证指标:通过将数据分成训练集和测试集多个回合,评估模型的平均性能。
- 3.1.2. 交叉验证迭代器:定义数据如何被分割成训练/验证集,如k-fold交叉验证、留一法等。
- 3.1.3. 打乱注意事项:确保数据在分割前被打乱,以避免潜在的顺序偏差。
- 3.1.4. 交叉验证与模型选择:使用交叉验证结果来选择最佳超参数或模型。
- 3.1.5. 重排列检验得分:通过随机打乱真实标签与预测结果的关系来评估模型的显著性。
3.2. 超参数调优
- 3.2.1. 网格遍历法:穷举搜索所有指定的超参数组合,找到最优配置。
- 3.2.2. 随机参数优化:随机抽样超参数组合,更高效地探索参数空间。
- 3.2.3. 逐半减法:逐步减少表现不佳的配置,集中资源于更有可能的最佳参数。
- 3.2.4. 参数搜索的提示:合理设定参数范围,利用先验知识,避免过拟合。
- 3.2.5. 蛮力搜索之外的选择:利用贝叶斯优化或其他智能优化算法进行更高效的搜索。
3.3. 调整决策阈值以进行类别预测
- 3.3.1. 后调优决策阈值:模型训练后调整分类阈值,优化特定目标(如精确率、召回率平衡)。
3.4. 指标与评分:量化预测质量
- 3.4.1. 评分参数:定义模型评估标准,如准确率、F1分数等。
- 3.4.2. 分类指标:包括精度、召回率、F-score等,评估分类任务的性能。
- 3.4.3. 多标签排名指标:评估多标签分类中预测标签的排序和覆盖情况。
- 3.4.4. 回归指标:如均方误差(MSE)、R²分数,衡量连续值预测的准确性。
- 3.4.5. 聚类指标:如轮廓系数、Davies-Bouldin指数,评估聚类质量。
- 3.4.6. 傻瓜估计器:作为基准,如常数预测器,用于比较模型性能。
3.5. 验证曲线:绘制得分以评估模型
- 3.5.1. 验证曲线:展示模型在不同超参数设置下的性能变化,帮助选择最优超参数。
- 3.5.2. 学习曲线:展示随着训练样本量增加,模型性能的变化,评估模型的泛化能力和是否过拟合/欠拟合。通过学习曲线可以决定是否需要更多数据或者调整模型复杂度。