第三章
基本形式
-
通过属性的线性组合来进行预测的函数
- d 个属性描述的实例
- 很好的可解释性:由于 w 直观表达了各属性在预测中的重要性
线性回归
-
最小二乘法:
- 基于均方误差最小化求解模型,即所有样本到直线上的欧式距离之和最短
-
几个概念
-
对数线性回归
- 形式上仍是线性回归
- 实质上已是在求取输入空间到输出空间的非线性函数映射
-
广义线性模型
- 联系函数:
-
对数线性回归是广义线性模型在 的特例
-
对数几率回归
- 单位阶跃函数
-
对数几率函数
-
由于单位阶跃函数不连续,找到的一种近似的 “替代函数”
-
-
-
几率:
-
对数几率:
-
对数几率回归:
-
-
一种分类学习方法
-
优点:
- 避免假设分布不准确:直接对分类进行建模,无需事先假设数据分布
- 可得到近似概率预测:利于用概率辅助的决策任务
- 优秀的数学性质:对率函数是任意阶可导的凸函数,现有的许多数值优化算法都可直接用于求取最优解。
-
线性判别分析
- 首先,给定训练样例集
- 设法将样例投影到一条直线上
- 同类样例的投影点尽可能接近
- 异类样例的投影点尽可能远离
- 然后,在对新样本进行分类
- 将其投影到上面找到的这条直线上
- 根据投影点的位置来确定新样本的类别
多分类学习
-
拆解法:将多分类任务拆为若干个二分类任务求解
-
拆分策略:
-
一对一(OvO):将这 N 个类别两两配对,从而产生 N (N 一 1) / 2 个二分类任务
-
一对其余(OvR):每次将一个类的样例作为正例,所有其他类的样例作为反例来训练 N 个分类器
-
多对多(MvM):
-
每次将若干个类作为正类,若干个其他类作为反类
-
OvO 和 OvR 是 MvM 的特例
-
技术:纠错输出码
-
工作过程:
-
编码:
- 对 N 个类别做 M 次划分
- 每次划分将一部分类别划为正类,一部分划为反类
- 形成一个二分类训练集
- 最后一共产生 M 个训练集,可训练出 M 个分类器
-
解码:
- M 个分类器分别对测试样本进行预测
- 这些预测标记组成一个编码
- 将这个预测编码与每个类别各自的编码进行比较
- 返回其中距离最小的类别作为最终预测结果
-
-
对同等长度的编码,理论上来说,任意两个类别之间的编码距离越远,则纠错能力越强。因此,在码长较小时可根据这个原则计算出理论最优编码。但是编码的理论性质越好,并不能说明分类性能越好。所以最终模型,还需要“因地制宜”。
-
-
-
类别不平衡问题
- 类别不平衡:分类任务中不同类别的训练样例数目差别很大的情况
- 基本策略:再缩放(代价敏感学习的基础)