「这是我参与2022首次更文挑战的第9天,活动详情查看:2022首次更文挑战」。
广义线性模型
前文
本文为在学习机器学习的过程中所接触到的几种线性模型。主要内容是学习过程中的笔记以及对于相关知识的总结,难免有不正确及不详细之处,还请见谅。
线性模型
首先来了解一下什么是线性模型。线性模型来说,是统计学中的一个概念。对于一个数据x的预测值,根据模型得到预测值y。而公式可以简化为y = w[0] * x[0] + b,其中的w以及b为斜率以及偏移量,二者均为通过数据的特征值得到。
在机器学习领域,常用的线性模型为以下几种:
- 线性回归
- 岭回归
- 套索回归
- 逻辑回归、线性svc等等
线性回归
一般的线性回归,可以理解为有若干样本点,根据样本点拟合成一条直线。当样本点为2时,可以轻易得到回归直线为两点所连接的直线。当样本点的数量大于2时,则线性模型会让自己距离每个点的加和为最小值,据此拟合成回归直线。
线性模型非常具有局限性,只有当数据量特征变量大于数据点数量时,才能对训练数据做出近乎完美的预测。
岭回归
对于岭回归而言,可以认为是线性回归的一种特殊情形,是一种改良的最小二乘法。岭回归是一种避免过拟合的线性模型。在岭回归中会保留所有的特征值,但减小特征值的系数。以此保留全部的特征变量,避免过拟合。
from sklearn.linear_model import Ridge
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
X,y = load_diabetes().data,load_diabetes().target
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state = 8)
rd = Ridge(alpha=1).fit(X_train,y_train)
套索回归
套索回归是另一种正则化的线性模型,与岭回归不同之处在于,套索回归会使得部分特征点的系数刚好为0,从而突出模型最重要的特征。套索回归容易出现欠拟合的问题,适用于数据特征过多,但只有一部分为重要特征的模型。
后记
- 千古兴亡多少事?悠悠。不尽长江滚滚流。