探索机器学习的广袤天地：模型选择与评估

路人与大师

2024-06-01 180 阅读2分钟

3. 模型选择与评估

3.1. 交叉验证：评估估计器性能

3.1.1. 计算交叉验证指标：通过将数据分成训练集和测试集多个回合，评估模型的平均性能。
3.1.2. 交叉验证迭代器：定义数据如何被分割成训练/验证集，如k-fold交叉验证、留一法等。
3.1.3. 打乱注意事项：确保数据在分割前被打乱，以避免潜在的顺序偏差。
3.1.4. 交叉验证与模型选择：使用交叉验证结果来选择最佳超参数或模型。
3.1.5. 重排列检验得分：通过随机打乱真实标签与预测结果的关系来评估模型的显著性。

3.2. 超参数调优

3.2.1. 网格遍历法：穷举搜索所有指定的超参数组合，找到最优配置。
3.2.2. 随机参数优化：随机抽样超参数组合，更高效地探索参数空间。
3.2.3. 逐半减法：逐步减少表现不佳的配置，集中资源于更有可能的最佳参数。
3.2.4. 参数搜索的提示：合理设定参数范围，利用先验知识，避免过拟合。
3.2.5. 蛮力搜索之外的选择：利用贝叶斯优化或其他智能优化算法进行更高效的搜索。

3.3. 调整决策阈值以进行类别预测

3.3.1. 后调优决策阈值：模型训练后调整分类阈值，优化特定目标（如精确率、召回率平衡）。

3.4. 指标与评分：量化预测质量

3.4.1. 评分参数：定义模型评估标准，如准确率、F1分数等。
3.4.2. 分类指标：包括精度、召回率、F-score等，评估分类任务的性能。
3.4.3. 多标签排名指标：评估多标签分类中预测标签的排序和覆盖情况。
3.4.4. 回归指标：如均方误差(MSE)、R²分数，衡量连续值预测的准确性。
3.4.5. 聚类指标：如轮廓系数、Davies-Bouldin指数，评估聚类质量。
3.4.6. 傻瓜估计器：作为基准，如常数预测器，用于比较模型性能。

3.5. 验证曲线：绘制得分以评估模型

3.5.1. 验证曲线：展示模型在不同超参数设置下的性能变化，帮助选择最优超参数。
3.5.2. 学习曲线：展示随着训练样本量增加，模型性能的变化，评估模型的泛化能力和是否过拟合/欠拟合。通过学习曲线可以决定是否需要更多数据或者调整模型复杂度。