[机器学习]线性回归(介绍)

930 阅读2分钟

线性回归的详细解释

通过一条直线, 或者一个超平面, 来构建自变量和因变量之间的关系.

在二维空间内, 就是直线

在高维空间内, 就是超平面.

1. 基本概念

图片.png


2. 核心原理:最小二乘法

图片.png


3. 模型假设

线性回归的有效性依赖于以下假设:

  • 线性关系:X与Y之间存在线性关系。
  • 误差项独立性:误差项ϵ之间相互独立。
  • 误差项正态性:误差服从均值为0的正态分布。
  • 同方差性:误差项的方差恒定。
  • 无多重共线性:自变量之间无高度相关性。

4. 评估指标

  • R²(决定系数) :表示模型解释的变异比例,范围0~1,值越大越好。
  • 调整R²:考虑自变量数量后的R²改进版,防止过拟合。
  • 均方误差(MSE) :预测值与真实值的平均平方误差。
  • 均方根误差(RMSE) :MSE的平方根,与Y单位一致。

5. 优缺点

  • 优点

    • 简单、易解释,计算速度快。
    • 提供变量重要性的直观系数(β值)。
  • 缺点

    • 对非线性关系效果差。
    • 对异常值和多重共线性敏感。
    • 需严格满足统计假设(如正态性、同方差性)。

补充问题:关于线性回归的其他关键点

1. 如何处理非线性关系?

  • 多项式回归:引入自变量的高次项(如X2,X3X2,X3)。
  • 变量变换:对X或Y进行对数、指数等变换。

2. 如何检测多重共线性?

  • 方差膨胀因子(VIF) :若VIF > 10,说明存在严重共线性。
  • 相关系数矩阵:检查自变量之间的相关系数。

3. 如何处理异常值?

  • 删除异常值:通过箱线图或Z-score识别并删除。
  • 鲁棒回归:使用Huber损失函数替代平方损失。

4. 正则化方法

  • 岭回归(Ridge) :L2正则化,解决多重共线性。
  • Lasso回归:L1正则化,同时进行变量选择。
  • 弹性网络(Elastic Net) :结合L1和L2正则化。

5. 与逻辑回归的区别

  • 线性回归:预测连续值(如房价)。
  • 逻辑回归:预测概率值(0~1),用于分类(如是否患病)。

6. 假设检验

  • t检验:检验单个系数是否显著(如β1≠0β1​=0)。
  • F检验:检验整体模型显著性。

7. 应用场景

  • 预测房价、销售额等连续型变量。
  • 分析变量间的关系(如广告投入对销量的影响)。

总结

线性回归是机器学习的基石,但需谨慎处理其假设和局限性。在实际应用中,常通过特征工程、正则化、模型诊断等方法优化性能。