机器学习基础——线性回归数学原理概述对于给定数据集$D={(\mathbf x_i,y_i)}{i=1}^m$，其中$

概述

对于给定数据集 $D={(\mathbf x_i,y_i)}_{i=1}^m$ ，其中 $\mathbf x_i=(x_{i1},x_{i2},...,x_{id}),y_i\in\mathbb R$ 。线性回归的目的是找到一个函数

f(\mathbf x)=\mathbf w^T\mathbf x+b

使得线性模型的预测值 $f(\mathbf x)$ 与真实值 $y$ 尽可能接近。通常选用均方误差来判断其接近程度，即

\begin{aligned} E(f;D)&=\frac1m\sum_{i=1}^m(f(\mathbf x_i)-y_i)^2\\ &=\frac1m\sum_{i=1}^m(\mathbf w^T\mathbf x_i+b-y_i)^2 \end{aligned}

当均方误差最小时，即可求得最优线性回归模型。此时

\begin{aligned} (\mathbf w^*,b^*)&=\arg\min_{\mathbf w,b}E(\mathbf w,b)\\ &=\arg\min_{\mathbf w,b}\sum_{i=1}^m(f(\mathbf x_i)-y_i)^2\\ &=\arg\min_{\mathbf w,b}\sum_{i=1}^m(\mathbf w^T\mathbf x_i+b-y_i)^2 \end{aligned}

$\mathbf w^*,b^*$ 表示 $\mathbf w,b$ 的解。我们只需要求得均方误差 $E$ 在最小值时的 $\mathbf w,b$ 值，因此均方误差的常数项 $\frac1m$ 可忽略。

当数据集中 $\mathbf x_i$ 的维度为1时，即 $\mathbf x_i=(x_i)$ ，此时 $x$ 为标量，则对于给定数据集 $D={(x_i,y_i)}_{i=1}^m$ ，线性回归给出的模型为

f(x)=wx+b

此时 $w$ 也是标量。易证 $E(w,b)=\sum_{i=1}^m(wx_i+b-y_i)^2$ 对 $w,b$ 均为开口向上且恒大于0的二次函数，因此我们可以使用二次函数对称轴公式或求导来确定该函数的最小值。这里选择求导的方法。将 $E(w,b)$ 分别对 $w,b$ 求导：

\begin{aligned} \frac{\partial E(w,b)}{\partial w}&=2\sum_{i=1}^m(wx_i+b-y_i)x_i\\ &=2\left[w\sum_{i=1}^m x_i^2-\sum_{i=1}^m(y_i-b)x_i\right]\\ \frac{\partial E(w,b)}{\partial b}&=2\sum_{i=1}^m(wx_i+b-y_i)\\ &=2\left[mb-\sum_{i=1}^m(y_i-wx_i)\right] \end{aligned}

令上式等于0，得到

\begin{aligned} b&=\frac1m\sum_{i=1}^m(y_i-wx_i)=\bar y-w\bar x\\ w&=\frac{\sum_{i=1}^m(x_i-\bar x)(y_i-\bar y)}{\sum_{i=1}^m(x_i-\bar x)^2}=\frac{\sum_{i=1}^m(x_iy_i)-m\bar x\bar y}{\sum_{i=1}^m x_i^2-m\bar x^2} \end{aligned}

一元线性回归.png

对概述中的式子，我们令

\mathbf X=\begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1d} & 1\\ x_{21} & x_{22} & \cdots & x_{2d} & 1\\ \vdots & \vdots & \ddots & \vdots & \vdots\\ x_{m1} & x_{m2} & \cdots & x_{md} & 1 \end{bmatrix}=\begin{bmatrix} \mathbf x_1^T & 1\\ \mathbf x_2^T & 1\\ \vdots & \vdots\\ \mathbf x_m^T & 1 \end{bmatrix},\mathbf y=\begin{bmatrix} y_1\\ y_2\\ \vdots\\ y_m \end{bmatrix},\mathbf{\hat w}=\begin{bmatrix} \mathbf w\\ b \end{bmatrix}

则

\begin{aligned} f(\mathbf x)&=\mathbf w^T\mathbf x+b=\mathbf{X\hat w}\\ \mathbf{\hat w}^*&=\arg\min_{\mathbf{\hat w}}E(\mathbf{\hat w})\\ &=\arg\min_{\mathbf{\hat w}}(\mathbf y-\mathbf{X\hat w})^T(\mathbf y-\mathbf{X\hat w})\\ \end{aligned}

将 $E$ 对 $\mathbf{\hat w}$ 求导得

\frac{\partial E(\mathbf{\hat w})}{\partial \mathbf{\hat w}}=2\mathbf X^T(\mathbf{X\hat w}-\mathbf y)

当 $X^TX$ 是满秩矩阵时，令上式等于0可得

\mathbf{\hat w}=\left(\mathbf X^T\mathbf X\right)^{-1}\mathbf X^T\mathbf y

将其代入一元线性回归，仍有效。二元线性回归.gif