[机器学习]线性回归(介绍)

2021-01-29 930 阅读2分钟

线性回归的详细解释

通过一条直线, 或者一个超平面, 来构建自变量和因变量之间的关系.

在二维空间内, 就是直线

在高维空间内, 就是超平面.

1. 基本概念

图片.png

2. 核心原理：最小二乘法

图片.png

3. 模型假设

线性回归的有效性依赖于以下假设：

线性关系：X与Y之间存在线性关系。
误差项独立性：误差项ϵ之间相互独立。
误差项正态性：误差服从均值为0的正态分布。
同方差性：误差项的方差恒定。
无多重共线性：自变量之间无高度相关性。

4. 评估指标

R²（决定系数） ：表示模型解释的变异比例，范围0~1，值越大越好。
调整R²：考虑自变量数量后的R²改进版，防止过拟合。
均方误差（MSE） ：预测值与真实值的平均平方误差。
均方根误差（RMSE） ：MSE的平方根，与Y单位一致。

5. 优缺点

优点：
- 简单、易解释，计算速度快。
- 提供变量重要性的直观系数（β值）。
缺点：
- 对非线性关系效果差。
- 对异常值和多重共线性敏感。
- 需严格满足统计假设（如正态性、同方差性）。

补充问题：关于线性回归的其他关键点

1. 如何处理非线性关系？

多项式回归：引入自变量的高次项（如X2,X3X2,X3）。
变量变换：对X或Y进行对数、指数等变换。

2. 如何检测多重共线性？

方差膨胀因子（VIF） ：若VIF > 10，说明存在严重共线性。
相关系数矩阵：检查自变量之间的相关系数。

3. 如何处理异常值？

删除异常值：通过箱线图或Z-score识别并删除。
鲁棒回归：使用Huber损失函数替代平方损失。

4. 正则化方法

岭回归（Ridge） ：L2正则化，解决多重共线性。
Lasso回归：L1正则化，同时进行变量选择。
弹性网络（Elastic Net） ：结合L1和L2正则化。

5. 与逻辑回归的区别

线性回归：预测连续值（如房价）。
逻辑回归：预测概率值（0~1），用于分类（如是否患病）。

6. 假设检验

t检验：检验单个系数是否显著（如β1≠0β1=0）。
F检验：检验整体模型显著性。

7. 应用场景

预测房价、销售额等连续型变量。
分析变量间的关系（如广告投入对销量的影响）。

总结

线性回归是机器学习的基石，但需谨慎处理其假设和局限性。在实际应用中，常通过特征工程、正则化、模型诊断等方法优化性能。