超参数调优
定义内涵
在机器学习的上下文中,超参数是在开始学习过程之前设置值的参数,在神经网络训练 过程中不会发生改变。通常情况下,在机器学习过程中需要对超参数进行优化,给学习器选 择一组最优超参数,以提高学习的性能和效果。
技术背景
AI 模型,尤其是深度神经网络,在训练阶段的关键在于选择合适的网络架构、适当的正 则化处理和超参数的调优。训练中需要调试的超参数有很多,如学习率、批量大小、动量、 正则化、网络层 数、隐藏层单元数等等。超参数的值不仅会影响到模型质量,对于确保模型收敛和准确率之间的平衡也至关重要。 超参数调优旨在寻找最优的超参数组合,属于非凸优化问题。主流的超参数调优算法有 网格搜索、贝叶斯 优化、模拟退火算法和遗传算法。网格搜索 [15],是一种穷举搜索手段,在指定参数范围内,按步长依次调整参数,并使用 调整后的参数训练模型,循环遍历每一种可能的参数值,将在验证集上表现最好的解作为最 终的超参数值。网格搜索能够找出指定参数范围内的最优参数,但超参数数量的增长会导致 计算复杂度的指数级增长。 贝叶斯优化 [16] 是目前超参数优化领域中的最优框架。贝叶斯优化采用高斯过程,根据已 有的参数信息不断更新先验。与网格搜索相比,贝叶斯优化调参迭代次数少,速度更快。 SecXOps 安全智能分析技术白皮书
模拟退火算法 [17] 是一种启发式算法,其思想源于材料统计学,从高温环境开始,非常缓 慢地降温,使粒子在从高能量状态向低能量状态转变的每个温度下都能达到热平衡,直至系 统完全冷却,粒子转变为低能状态的晶体。模拟退火算法在搜索和优化超参数的过程中引入 了随机因素,在搜索到超参数的局部最优解后,以一定的概率(该概率随着时间逐渐降低) 接受比当前解更差的解,反复几次后,超参数的值有一定概率跳出局部最优解,达到全局最 优解。 遗传算法(Genetic Algorithm,GA)[18],也是一种启发式算法。遗传算法将超参数调优 问题模拟为生物进化过程,经过选择、交叉、突变后产生下一代的解,逐步淘汰适应度函数 值(评价指标)低的解,增加适应度函数值高的解,经过多代进化后,可能会出现适应度函 数值很高的个体,也即超参数的最优值