线性回归:损失函数初探

116 阅读2分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第1天,点击查看活动详情

先上公式

y^=xw+b\hat {\mathbf{y} }= \mathbf{x}^ \top \mathbf{w} + b

其中Y表示预测结果,X表示数据集。W则是权重。 这时一个从最简单的单变量线性回归得到的。

单变量的线性回归公式如下:

y = wx + b

也就是我们初中就学习过的简单直线。

它的思路比较简单,假设有那么一些点,要做的就是用一条线穿过这些点。

任意两点共线是很显然的,因为两点决定一条直线。 但是如果需要三点甚至更多点在同一条直线上,就不一定有这么好的运气了。

这里使用的方法叫做最小二乘法,听起来怪怪的。实际上它的原意应该被翻译成最小乘方。二乘是霓虹人当初瞎翻译的。

因为它采用采取了这样一个评估目标,求由上述公式计算得到的y和实际的y之间的误差的平方和,这个误差平方和就是我们要求的最小值。

问题就在w和b取何值。这里可以进一步简化,认为b乘以的x取值为1,这样就只有一个变量需要求解,即w。当然实际都差不多。

具体来说,如果从函数的角度出发,那么方法是对目标函数求偏导,因为我们要求的是平方和的最小值。

于是对于

L=12i=1n(yiy^i)2其中y^i=wxi+b L = \frac{1}{2} \sum_{i=1}^{n} \left( y_i - \hat{y}_i \right)^2 其中 \hat{y}_i = wx_i + b

1/2主要是便于求导,其实有没有无所谓。

分别对w和b求偏导有:

Lw=i=1n(xi)(yiy^i),Lb=i=1n(yiy^i) \frac{\partial L}{\partial w} = \sum_{i=1}^{n} \left( x_i \right) \left( y_i - \hat{y}_i \right) ,\frac{\partial L}{\partial b} = \sum_{i=1}^{n} \left( y_i - \hat{y}_i \right)

让偏导得零就可以得到我们要求得的w和b。

把变量向量化,就可以得到多元线性回归的公式。 总体上来是一样的。

尽管我们使用线性模型时不需要推到这个公式。但是这种思路其他模型仍旧有用。

而且由于线性模型是具有上面推导的解析解的,因为如果可以把数据转换到线性模型,同样会有相当好的结果。