机器学习之线性回归模型

551 阅读1分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

线性回归模型

(本章内容是后续logistic回归和softmax回归的基础) 给定数据集D={(x1,y1),(x2,y2),,(xm,ym)}D=\{(\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2),\dots ,(\mathbf{x}_m,y_m)\},其中xi={xi1;xi2;;xid}\mathbf{x}_i=\{x_{i1};x_{i2};\dots ;x_{id}\}是具有dd个分量的特征向量,yiRy_i\in \mathbb{R}为数据标签,线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数:

f(xi)=wTxi+b(1)f(\mathbf{x}_i)=\boldsymbol{w}^T\mathbf{x}_i+b \tag{1}

来尽可能准确地预测标签yiy_i,其中w=(w1;w2;;wd)w=(w_1;w_2;\dots;w_d)。 如何确定参数wwbb的取决于我们怎么定义f(xi)f(\mathbf{x}_i)yiy_i之间的差别。均方误差是回归任务中最常用的性能度量,因此我们可试图让均方误差最小化:

(w,b)=arg min(w,b)i=1m(f(xi)yi)2=arg min(w,b)i=1m(yiwxib)2(2)\begin{aligned} (w^*,b^*) &=\mathop{arg\ min}\limits_{(w,b)}\sum_{i=1}^m(f(x_i)-y_i)^2\\ &=\mathop{arg\ min}\limits_{(w,b)}\sum_{i=1}^m(y_i-wx_i-b)^2\\ \tag{2} \end{aligned}

线性模型(1)的预测值用来逼近真实标记y时,我们就得到线性回归模型。线性回归模型简写为

y=wTx+b(3)y=\boldsymbol{w}^T\boldsymbol{x}+b \tag{3}

也可令模型预测值逼近yy的衍生物g(y)g(y)

y=g1(wTx+b)(4)y=g^{-1}(\boldsymbol{w}^T\boldsymbol{x}+b) \tag{4}

这样得到的模型成为“广义线性模型”。例如,当g(y)=ln(y)g(y)=ln(y)时,称为对数线性回归。