考试-机器学习复习/简单总结西瓜书(2.第二章(1))

160 阅读4分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第十三天,点击查看活动详情

总结:此文为12月更文计划第十三天第二十篇。

第二章:模型评估与选择

这一篇开始模型评估与选择的复习,

首先引出的内容是过拟合与欠拟合,这个知识点,我在以前的文章中有着详细的介绍,甚至还有代码实战,我在这里就不多阐述。

{过拟合这个是一个很重要的知识点,我记得不错应该是有好好写了一篇文章来复习的,如果没有那我就以后补上)

解决方法:

过拟合

1. 增加训练样本数量

2. 正则化L1.L2

3. 降维

4. 集成学习方法

5. 减少模型复杂度

6. 丢弃法Dropout

欠拟合

1. 添加新特性

2. 增加模型复杂度

3. 减小正则化系数

一图读懂过拟合与欠拟合:

image.png

评估方法*

定义:线性回归通过一个或者多个自变量与因变量之间之间进行建模的回归分析。其中特点为一个或多个称为回归系数的模型参数的线性组合

一元线性回归:涉及到的变量只有一个 多元线性回归:涉及到的变量两个或两个以上

损失函数(误差大小)

y_i为第i个训练样本的真实值

ℎ_w(x_i)为第i个训练样本特征值组合预测函数

如何去求模型当中的W,使得损失最小?

回归:

迭代的算法

损失函数最小

推导方法:

image.png

寻找最优化的W值

求解:w=(X^TX)^−1X^Ty X为特征值矩阵,y为目标值矩阵

缺点:当特征过于复杂,求解速度太慢 对于复杂的算法,不能使用正规方程求解(逻辑回归等)

好处是求解简单,但是对于复杂的矩阵,可能求不出来(矩阵的逆是不存在的),因此不做要求

因为线性最小二乘的解是closed-form即 [(X^TX)^],而非线性最小二乘没有closed-form(即 [(X^TX)^]没有可逆矩阵),这时候矩阵运算求解就行不通,这时候就可以通过迭代法(梯度下降法)求最优解。

最小二乘法之梯度下降

我们以单变量中的w0,w1为例子:

image.png

α为学习速率,需要手动指定

image.png 表示方向

理解:沿着这个函数下降的方向找,最后就能找到山谷的最低点,然后 更新W值

image.png

模型评估: 特点:线性回归器是最为简单、易用的回归模型。 从某种程度上限制了使用,尽管如此,在不知道特征之 间关系的前提下,我们仍然使用线性回归器作为大多数 系统的首要选择。

小规模数据:LinearRegression(不能解决拟合问题)以及其它

大规模数据:SGDRegressor

回归系数: 在回归方程中表示自变量x 对因变量y 影响大小的参数。回归系数越大表示x 对y 影响越大,正回归系数表示y 随x 增大而增大,负回归系数表示y 随x增大而减小。例如回归方程式Y=bX+a中,斜率b称为回归系数,表示X每变动一单位,平均而言,Y将变动b单位。

==============================================

(补充西瓜书知识点,字数已够,下文不再占字数)

评估方法

现实任务中往往会对学习器的泛化性能、时间开销、存储开销、可解释性等方面的因素进行评估并做出选择。

我们假设测试集是从样本真实分布中独立采样获得,将测试集上的“测试误差”作为泛化误差的近似,所以测试集要和训练集中的样本尽量互斥

留出法:

· 直接将数据集划分为两个互斥集合

· 训练/测试集划分要尽可能保持数据分布的一致性

· 一般若干次随机划分、重复实验取平均值

· 训练/测试样本比例通常为2:1~4:1

交叉验证法:

· 将数据集分层采样划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的一个子集作为测试集,最终返回k个测试结果的均值,k最常用的取值是10.

自助法:

以自助采样法为基础,对数据集D有放回采样m次得到训练集D’ , D\D’用做测试集。