线性回归算法详解
🧠 算法思想
线性回归 是统计学和机器学习中最基础的预测建模技术之一,其核心思想是通过建立自变量(特征)与因变量(目标)之间的线性关系,来预测或解释因变量的变化。线性回归模型假设因变量是自变量的线性组合,再加上一个误差项。
数学表达式
线性回归模型的一般形式为:
其中:
- 是因变量(目标值)
- 是自变量(特征)
- 是模型参数(系数)
- 是误差项(无法通过自变量解释的部分)
目标
线性回归的目标是通过数据估计参数 ,使得模型能够最小化预测值与实际值之间的误差。最常用的方法是 最小二乘法(Ordinary Least Squares, OLS),即最小化残差平方和:
其中 是样本数量, 是第 个样本的特征向量, 是实际输出值。
🧮 数学原理:正规方程
核心公式
线性回归的闭式解(闭合解)通过 正规方程 直接求得最优参数 :
其中:
- 是特征矩阵(形状为 , 为样本数, 为特征数)
- 是目标向量(形状为 )
- 是最优参数向量(形状为 )
该公式仅在 XᵀX 是满秩矩阵(即特征之间不存在完美的多重共线性)时才有效。如果 XᵀX 不可逆(奇异),通常意味着存在线性相关的特征或特征数量大于样本数量,此时需要使用岭回归等正则化方法或伪逆。
🛠️ 参数详解
在 scikit-learn 的 LinearRegression 中,核心参数如下:
| 参数名 | 说明 | 默认值/示例值 | 值的含义 |
|---|---|---|---|
fit_intercept | 是否计算截距项 。 | True | - True:模型包含截距项(推荐)- False:模型不包含截距项 |
n_jobs | 并行计算使用的处理器数量。 | None | - 1:单线程- -1:使用所有处理器(推荐) |
⏱️ 时间复杂度分析
线性回归的计算复杂度主要取决于求解参数的方法(如最小二乘法或梯度下降)。以下是不同方法的复杂度分析:
1. 最小二乘法(Normal Equation)
- 训练时间复杂度:
- 是特征数, 是样本数。
- :矩阵乘法 的复杂度。
- :矩阵求逆 的复杂度。
- 预测时间复杂度:
- 每次预测只需计算 ,复杂度与特征数成正比。
✅ 示例代码
from sklearn.linear_model import LinearRegression
# 训练线性回归模型
model = LinearRegression( n_jobs=-1)
model.fit(X_train, y_train)
# 预测与评估
score = model.score(X_test, y_test)
print(f"模型 R² 分数: {score:.4f}")