不同训练设备问题
1、训练阶段:
- 可以在不同服务器上进行训练
- 基于预测精度等质量指标选择每个模型的最佳checkpoint
- 保存这些最佳模型的权重文件(.pth)
2、最终测试/对比阶段:
- 把所有最佳模型的.pth文件集中到同一台设备
- 在相同的硬件环境下进行资源指标测试
- 获得公平的性能对比数据,包括:
- 显存占用
- FLOPs
- 推理时间
- GPU利用率等
这样可以保证:
- 训练阶段的分布式不影响最终模型性能
- 资源相关的指标具有可比性
不同超参数组合问题
- 固定超参数比较的局限性:
- 同样的超参数配置对不同架构的网络影响不同
- 有些网络对学习率特别敏感,有些对批量大小更敏感
- 固定配置的比较可能对某些架构天然不公平
- 数据集的影响:
- 在小型数据集上的表现和在大规模数据集上可能完全不同
- 数据分布的差异会导致不同架构的优势此消彼长
- 有些网络在特定领域数据上表现出色,换个domain就差很多
- 关于超参数搜索:
- 能提供相对更公平的比较基准
- 但计算开销会显著增加
- 搜索空间的定义本身就是一个主观决策
- 不同超参数的搜索范围如何确定?
- 搜索算法的选择(网格搜索、随机搜索、贝叶斯优化等)会影响结果
- 可能的解决思路:
- 在多个不同规模和类型的数据集上进行对比
- 考虑计算效率、模型大小等多个维度
- 报告统计显著性和方差
- 明确说明评估条件和限制