一、线性模型概述
- 是什么:
- 一种用于建立变量之间线性关系的统计学和机器学习模型
-
基本形式:
3. 优点:
- 形式简单、易于建模
- 在其基础上引入层级结构或高维映射可得到功能更为强大的非线性模型
4. 常见的线性模型:
- 线性回归、逻辑回归、岭回归、Lasso回归、弹性网络回归
二、线性回归linear regression
- 目标:
- 试图学得一个线性模型以尽可能准确地预测实值输出标记
- 试图学得一个线性模型以尽可能准确地预测实值输出标记
- 有哪些:
- 回归任务
- 预测的输出是连续属性值
- 分类任务
- 预测的输出是类标号
- 回归任务
- 衡量f(x)与y之间的差别:
- 使均方误差最小化
- 使均方误差最小化
- 求解模型的方法:最小二乘法
- 是什么:
- 基于均方误差最小化来进行模型求解的方法
- 在线性回归中,最小二乘法在几何上的体现:
- 试图找到一条直线,使所有样本到直线上的欧式距离之和最小
- 是什么:
- 最小二乘“参数估计”:
- 是什么:
- 求解w和b使均方误差最小化的过程
- w,b:
- 是什么:
- 线性判别分析(LDA):
- 是什么:
- 一种经典的线性学习方法
- 思想:
- 给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离
- 在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别
- 是什么:
- 多分类学习:
- 基本思路:
- 拆解法(将多分类任务拆分为若干个二分类任务求解)
- 关键:
- 如何拆分多分类任务
- 如何对多个分类器进行集成
- 拆分策略
- 一对一OvO
- 需要的分类器数量:N(N-1)/2
- 每个分类器仅用到两个类的样例
- 一对其余OvR
- 需要的分类器数量:N
- 每个分类器均使用全部训练样例
- 多对多MvM
- 若干个类作为正类,其他若干个类作为反类
- 常用MvM技术:纠错输出码ECOC
- 是什么:
- 将编码的思想引入类别拆分,并尽可能在解码过程中具有容错性
- 特点:
- 在测试阶段,EOOC编码对分类器的错误有一定的容忍和修正能力
- EOOC编码越长,纠错能力越强,但所需训练的分类器越多,计算、存储开销都会增大,如果太长,可能就满足不了有限类别数有限的组合数目
- 对于同等长度的编码,任意两个类别之间的编码距离越远,纠错能力越强,但是太长的码长使得最优编码难以确定
- 不需要确定理论最优编码,因为非最优编码在实践里就能产生足够好的分类器
- 工作过程:
- 编码
- 划分N个类别M次得到M个训练集训练出M个分类器
- 类别划分:
- 指定方式:编码矩阵
- 形式
- 二元码
- 正类、反类
- 三元码
- 正类、反类、停用类
- 二元码
- 形式
- 指定方式:编码矩阵
- 类别划分:
- 划分N个类别M次得到M个训练集训练出M个分类器
- 解码
- M个分类器各自分别预测测试样本得到预测标记,组成一个编码,并将其与各个类别的编码比较,返回其中距离最小的类别作为最终预测结果
- 编码
- 是什么:
- 一对一OvO
- 基本思路:
- 类别不平衡:
- 是什么:
- 分类任务里不同类别的训练样例数目差别很大的情况
- 类别不平衡问题的基本策略:
- 再缩放
- 三种做法:
- 直接对训练集里的反类样例进行欠采样
- 是什么:
- 去除一些反例使得正、反例数目接近,然后再进行学习
- 特点:
- 可能丢失一些重要信息
- 代表性算法:
- EasyEnsemble
- 利用集成学习机制,将反例划分为若干个集合供不同的学习器使用
- EasyEnsemble
- 与过采样相比:
- 时间开销小点
- 是什么:
- 对训练集里的正类样例进行过采样
- 是什么:
- 增加一些正例使得正、反例数目接近,然后再进行学习
- 注意:
- 不能重复采样,否则会产生严重的过拟合
- 代表性算法:
- SMOTE
- 正例进行插值来产生正例
- SMOTE
- 是什么:
- 基于原始训练集进行学习
- 注意:在用训练好的分类器进行预测时,会进行“阙值移动”
- 直接对训练集里的反类样例进行欠采样
- 三种做法:
- 再缩放
- 是什么: