线性回归再理解¶
目前已有的理解,使用假设函数来的得到我们预测的值。为了是预测值接近我们给的标签值y,使用目标(损失)函数
,通过优化参数是的目标函数尽可能小,来得到我们的参数值
最小二乘法¶
通过选择来最小化
。初始化
,
然后使用梯度下降算法进行更新,
。公式中计算偏导数的过程如下:
因此,可以得到梯度下降更新算法的公式
重复计算,直到收敛:(对每一个j)
标准方程解法如下:
可能性推断¶
下面是本文章重点介绍的内容,为什么使用最小均方作为损失度量,有其他的原因吗。下面给出一个可能性假设:
假设目标函数与目标值之间关系如下:
, 由目标函数加上一个误差项组成。
这里假设误差独立分布,满足高斯分布(标准分布), 及
, 均值为0, 方差为
的分布。 可以得到其概率密度函数为:
,
可以转换成如下的形式:
表示在给定的分布。因为x和y是确定的,因此可以构造似然函数,求什么样的
能满足上述条件。 似然函数如下:
基于上面的独立性假设, 上述似然函数可以写作:
因此,有如上的可能性模型,怎么去得到最好的参数。可以使用最大似然估计, 选择合适的 来使似然函数去的最大值。因为
的单调性,可以取对数,其得到的极值点相同, 方便求导。其偏导数为0的点即为极值点。
经过计算,要使函数去的最大值,则后一项尽可能的小,。 可以解释开始的问题,为什么要用最小均方最为损失度量。
逻辑回归再理解¶
其实逻辑回归的大部分过程也和上面一样,包括独立性假设及其分布,最大似然的计算。下面简单叙述一下过程。
与线性回归类似,通过给定的x预测y, 而y只有0,1两个取值,因此使用逻辑函数进行转换:
后续需要进行求导,求导如下:
有了上述回归模型,怎么确定。类似上述线性回归模型,通过做一些可能性假设,求似然函数的最大值。 假设以下情况:
,
综合起来可以写成:
假设m训练实例独立生成,似然函数如下:
去对数之后可以很轻易的求的:
下一步也是类似,怎么求得似然函数的最大值。使用梯度提升:更新参数的值:
其梯度计算过程如下:
因此更新参数如下:
(对每一个j)
如果比较上述两个参数更新的公式,可以发现是相同的,但注意,不是同一个算法,因为定义的不是一样的。 感知机的算法和推到过程也是类似的。