3. 线性模型
3.1 基本形式
线性模型试图学得一个通过属性的线性组合来进行预测的函数,即:
一般用向量形式写为:
当w和b学得后,模型得以确定
3.2 线性回归
“线性回归” (linear regression)试图学得一个线性模型以尽可能准确地预测实值输出标记。
线性回归试图学得:
确定w和b:均方误差是回归任务中最常用的性能度量,因此我们可试图让均方误差最小化,即
基于均方误差最小化来进行模型求解的方法称为 “最小二乘法” (least square method)。
- 多元线性回归
- 对数线性回归
- 广义线性模型(对数线性回归是广义线性模型在g(·)= ln(·)时的特例)
3.3 对数几率回归
我们希望找到能在一定程度上近似单位阶跃函数的“ 替代函数” , 并希望它单调可微, 对数几率函数(简称“对率函数”)正是这样一个常用的替代函数:
“ 对数几率回归”是一种分类学习方法,这种方法有很多优点:
-
它是直接对分类可能性进行建模,无需事先假设数据分布,这样就避免了假设分布不准确所带来的问题;
-
它不是仅预测出“类别”,而是可得到近似概率预测,这对许多需利用概率辅助决策的任务很有用;
-
此外,对率函数是任意阶可导的凸函数,有很好的数学性质现有的许多数值优化算法都可直接用于求取最优解
我们可通过“ 极大似然法” 来估计 w 和 b。
3.4 线性判别分析(LDA)
LDA 的思想非常朴素 : 给定训练样例集, 设法将样例投影到一 条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,冉根据投影点的位置来确定新样本的类别。
3.5 多分类学习
多分类学习的基本思路是“拆解法”,即将多分类任务拆分为若干个二分类任务求解。具体来说,先对问题进行拆分,然后为拆出的每个二分类任务训练一个分类器; 在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果.这里的关键是如何对多分类任务进行拆分,以及如何对多个分类器进行集成。
最经典的拆分策略有三种:“一对一”OvO,“一对其余”OvR,“多对多”MvM。
-
OvO:将N个类别两两配对,从而产生N(N-1)/2个分类问题(分类器)。在测试阶段,将新样本同时提交给所有分类器,并产生N(N-1)/2个结果,最终结果通过投票产生。
-
OvR:每次将一个类的样例作为正例,所有其他类的样例作为反例;从而训练N个分类器。在测试时若仅有一个分类器预测为正类,则对应的类别标记为最终分类;若有多个分类器预测为正类,则通常考虑分类器的置信度,选择置信度最大的类别标记作为分类结果。
-
MvM:每次将若干个类作为正类,若干个其它类作为反类。但正反类构造必须有特殊的设计,不能随便选取。这里纠错输出码(EOOC)就是一种最常见的MvM技术。ECOC工作过程分为两步:
-
(1)编码:对N个类别做M次划分,每次划分将一部分化为正,一部分化为反,从而形成一个二分类训练集,这样一共产生M个训练集,可以训练M个分类器。
-
(2)解码:M个分类器分别对样本进行预测,这些预测标记组成一个编码,将这个预测编码与每个类别的各自编码进行编码,返回其中距离最小的类别作为预测结果。
-
3.6 类别不平衡问题
类别不平衡(class-imbalance)就是指分类任 务中不同类别的训练样例数目差别很大的情况不失一般性。
-
类别不平衡学习的一个基本策略 — “再缩放”
-
第一类是直接对训练集里的反类样例进行“欠采样” (unders arnpling), 即去除一些反例使得正、反例数目接近,然后再进行学习;
-
第二类是对训练集里的正类样例进行“过采样” (oversamp ling),即增加一些正例使得正、反例数目接近,然后再进行学习;
-
第三类则是直接基于原始训练集进行学习,但在用训练好的分类器进行预测时, 将式(3.48) 嵌入到其决策过程中 , 称为“阙值移动”
欠采样法的时间开销通常远小于过采样法,因为前者丢弃了很多反例,使得分类器训练集远小千初始训练集,而过采样法增加了很多正例,其训练集大于初始训练集。
注意:
-
过采样法不能简单地对初始正例样本进行重复采样, 否则会招致严重的过拟合;
-
另一方面,欠采样法若随机丢弃反例,可能丢失一些重要信息;