梯度下降、牛顿法、极大似然、交叉熵、最小二乘之间的区别和联系

2022-04-26 285 阅读1分钟

本文已参与「新人创作礼」活动，一起开启掘金创作之路。

分类

看到这个问题其实我们首先要把这些算法分一下类：

极大似然、交叉熵是用来计算损失（loss）的
梯度下降、牛顿法是用来优化的，最小二乘法是选择平方差作为loss的优化方法
深度学习训练的时候每一轮都会计算输出loss然后根据梯度下降法进行优化

公式

最小二乘法

在这里插入图片描述

交叉熵

在这里插入图片描述

牛顿法

在这里插入图片描述

极大似然

在这里插入图片描述

区别

最小二乘法直接使用极值，将极值作为最小值。其假定有二：1，损失函数中极值就是最小值。2，损失函数具有极值。
梯度下降是用迭代的方法求出局部最优解
牛顿法需要求逆，还要求目标函数f(x)二阶可导。