Datawhale X 李宏毅苹果书 AI夏令营

145 阅读2分钟

在深度学习的优化过程中,局部极小值与鞍点是两个常见的挑战。局部极小值指的是损失函数在某一局部区域达到最小值,但在全局范围内可能并不是最优解。例如,在一个复杂的损失函数表面上,优化算法可能会陷入一个局部极小值,导致模型无法达到最佳性能。鞍点则更为复杂,它是指在某些维度上损失函数是极小值,而在其他维度上是极大值。比如,一个鞍点可能是一个山脊的顶点,梯度下降算法在这个点上会变得非常缓慢,导致训练过程停滞不前。因此,在高维空间中,模型的损失函数表面上鞍点的存在使得优化过程更加困难,增加了找到全局最优解的挑战。

批量与动量是加速优化过程的重要技巧。批量(batch)指的是在每次迭代中使用的数据子集。例如,假设有一个包含10,000张图片的数据集,如果使用批量大小为100的批量梯度下降,每次迭代将从数据集中选取100张图片用于计算梯度并更新模型权重。这种方法可以提高计算效率,减少训练时间,同时增加模型的泛化能力。动量(momentum)则通过在每次更新中引入过去梯度的影响,帮助模型更快地接近全局最优解。举个例子,当一个小球沿着带有许多起伏的表面下滚时,动量的引入就像给小球增加了惯性,帮助它更容易越过小的局部极小值或鞍点,避免陷入停滞,最终加速收敛到最低点。