线性回归 - 最小二乘法

83 阅读1分钟

「这是我参与2022首次更文挑战的第16天,活动详情查看:2022首次更文挑战」。


title: 线性回归 - 最小二乘法 mathjax: true date: 2021-05-20 23:15:15 tags: [Math, Regression] categories: [Math, Regression]

故名思意,线性回归是一种线性模型,线性模型形式简单、易于建模。许多功能更为强大的非线性模型可在线性模型的基础上通过引入层级结构或者高维映射而得。本文记录最基本的线性回归方法。

问题描述

考虑一个线性模型 y=f(x){y}=f({\bf{x}})

其中yy是模型的输出值,是标量,x\bf{x}dd维实数空间的向量

  • 线性模型可以表示为:
f(x)=wTx,wRf(\bf{x})=\bf{w} ^Tx,w\in \mathbb{R}
  • 线性回归的任务是利用nn个训练样本:

{%raw%}

X=[x1xn]T=[x1TxnT]xRX=\left[\begin{array}{lll}\bf{x}_{1} & \cdots & \bf{x}_{n}\end{array}\right]^{T}=\left[\begin{array}{c}\bf{x}_{1}^{T} \\ \vdots \\ \bf{x}_{n}^{T}\end{array}\right] \quad \bf{x} \in \mathbb{R}

{%endraw%}

  • 和样本对应的标签:
Y=[y1yn]TyRY = [ y _ { 1 } \cdots \quad y _ { n } ] ^ { T } \quad y \in \mathbb{R}
  • 来预测线性模型中的参数 ω\bf{\omega},使得模型尽可能准确输出预测值

线性回归 / 最小二乘法

  • 定义损失函数:
L(w)=i=1n(wTxiyi)2L(w)=\sum_{i=1}^{n}\left(w^{T} x_{i}-y_{i}\right)^{2}
  • 推导损失函数:

{%raw%}

\begin{aligned} L(w) &=\sum_{i=1}^{n}\left(w^{T} x_{i}-y_{i}\right)^{2} \\ &=\left(w^{T} x_{1}-y_{1}\right)^{2}+\left(w^{T} x_{2}-y_{2}\right)^{2}+\ldots+\left(w^{T} x_{n}-y_{n}\right)^{2} \\ &=[w^{T} x_{1}-y_{1} , \cdots ,w^{T} x_{n}-y_{n}]\left[\begin{array} & w^{T} x_{1}-y_{1} \\ \vdots \\ w^{T} x_{n}-y_{n}\end{array}\right] \\ &=\left(w^{T}\left[\begin{array}{lll}x_{1} & \cdots & x_{n}\end{array}\right]-Y^{T}\right)\left(\left[\begin{array}{c}x_{1}^{T} \\ \vdots \\ x_{n}^{T}\end{array}\right] w-Y\right) \\ &=\left(w^{T} X^{T}-Y^{T}\right)(X w-Y) \\ &=w^{T} X^{T} X w-w^{T} X^{T} Y-Y^{T} X w+Y^{T} Y \\ &=w^{T} X^{T} X w-2 w^{T} X^{T} Y+Y^{T} Y \\ \end{aligned}

{%endraw%}

  • 优化方程:

{%raw%}

w^=argmaxwL(w)=argmaxwwTXTXw2wTXTY+YTY=argmaxwwTXTXw2wTXTY\begin{aligned} \hat{w} &=\arg \max _{w} L(w) \\ &=\arg \max _{w} w^{T} X^{T} X w-2 w^{T} X^{T} Y+Y^{T} Y \\ &=\arg \max _{w} w^{T} X^{T} X w-2 w^{T} X^{T} Y \end{aligned}

{%endraw%}

  • 求导并令倒数为0:
L(w)w=2XTXw2XTY=0\frac{\partial L(w)}{\partial w}=2 X^{T} X w-2 X^{T} Y=0
  • 得到:
XTXw=XTYw^=(XTX)1XTYX^{T} X w=X^{T} Y \Rightarrow \hat{w}=\left(X^{T} X\right)^{-1} X^{T} Y

参考资料