常见的线性模型

2022-05-10 127 阅读3分钟

目录

对数几率回归

LDA:线性判别

多元回归

给定M个数据集样本 $x_{i}$ ,每个样本由d个属性构成。

多元线性回归试图学习：

最后的优化目标（策略）：

推导过程：

注意：argmin的意思不是求最小值，而是使得式子达到最小值的该点取值

求该凸函数极值点方法----一阶导数为零

求导：

矩阵求导公式：

（ $x^{T}x$ 可逆或者正定矩阵）

然而现实中： $x^{T}x$ 往往不是满秩矩阵。在许多任务中，我们会遇到的变量的数目超过其属性样例数，导致X的列数多于行数
这种多解情况，选择哪一个解作为输出，将由学习算法的归纳偏好决定。
常见的做法是引入正则化(regularization)项


多元线性回归总结：模型：线性模型策略：均方误差最小算法：最小二乘在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线上的欧氏距离之和最小.

对数几率回归

对数线性回归：

实际上是为了提高精度，让曲线： $y=e^{W^{T}X+b}$ 来逼近预测值y

目的是：求取输入空间到输出空间的非线性函数映射

这里的对数函数起到了将线性回归模型的预测值与真实标记联系起来的作用.

（对数线性回归示意图）

广义线性模型：

这样的模型叫广义线性模型，对数线性回归是广义线性回归模型的特例

该函数叫“联系函数”

对数几率回归

作用：

考虑二分类任务，找一个单调可微函数，该联系函数把分类任务的真实标记y和线性回归模型的预测值联系起来

选用的联系函数是： $y=\frac{1}{1+e^{z}}$ (对数几率函数，sigmod函数的一种)
该函数将输入z转化为输出0或1的一种，其输出值在z=0附近很抖。

把y视为样本x正例的可能，1-y则为反例的可能
这种比值： $\frac{y}{1-y}$ 叫几率，取ln后叫对数几率

注意，虽然这种模型叫对数几率，实际上这是该模型用于解决分类问题

损失函数有两种计算方法----最大似然和信息熵

下面介绍最大似然：

最大化该似然函数相当于最小化：

下面是算法：求解最小值

采取牛顿法----

具体数值运算时直接调用Python包即可。


对数几率模型总结：模型：对数几率模型策略：最大似然估计或者信息熵算法：牛顿法注意对数几率模型解决的·是分类问题而不是回归问题

LDA:线性判别

算法思想：

设法找到这样一条直线，把给定的样例集投影在该直线时，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离。

也就是从几何角度建模的：
同类样本：方差尽可能小
异类样本：中心尽可能大

这里是二分类问题：设集合 $X_{0,}X_{1}$ 分别表示0类示例和1类示例， $\mu _{0},\mu _{1}$ 表示0类和1类样本的均值，
$\Sigma_{0}, \Sigma _{1}$ 是两类样本各自的协方差。

异类样本的中心尽可能小

即：

同类样本的方差尽可能大

即：

最后结合上述两种，选用的决策函数为：

为了简化计算现在定义两种矩阵：

类内散度矩阵：

类间散度矩阵：

最后要优化的目标：

其实这是一种瑞利商的形式

这个式子中w的长度不会影响最后的结果，因为分子分母被消去了，所以选择固定w的长度，可以选择w的模长为1，这里为了简化运算，选用将：分母值为1.

下面介绍优化算法：

常见的就是拉格朗日乘子法：

解得：

注意： $S_{b},S_{w}$ 都是对称矩阵