Datawhale X 李宏毅苹果书 AI夏令营在深度学习的优化过程中，局部极小值与鞍点是两个常见的挑战。批量与动量是加

在深度学习的优化过程中，局部极小值与鞍点是两个常见的挑战。局部极小值指的是损失函数在某一局部区域达到最小值，但在全局范围内可能并不是最优解。例如，在一个复杂的损失函数表面上，优化算法可能会陷入一个局部极小值，导致模型无法达到最佳性能。鞍点则更为复杂，它是指在某些维度上损失函数是极小值，而在其他维度上是极大值。比如，一个鞍点可能是一个山脊的顶点，梯度下降算法在这个点上会变得非常缓慢，导致训练过程停滞不前。因此，在高维空间中，模型的损失函数表面上鞍点的存在使得优化过程更加困难，增加了找到全局最优解的挑战。

批量与动量是加速优化过程的重要技巧。批量（batch）指的是在每次迭代中使用的数据子集。例如，假设有一个包含10,000张图片的数据集，如果使用批量大小为100的批量梯度下降，每次迭代将从数据集中选取100张图片用于计算梯度并更新模型权重。这种方法可以提高计算效率，减少训练时间，同时增加模型的泛化能力。动量（momentum）则通过在每次更新中引入过去梯度的影响，帮助模型更快地接近全局最优解。举个例子，当一个小球沿着带有许多起伏的表面下滚时，动量的引入就像给小球增加了惯性，帮助它更容易越过小的局部极小值或鞍点，避免陷入停滞，最终加速收敛到最低点。