西瓜书笔记（二）—— 第三章

种韭菜的小萝卜

2022-06-20 147 阅读3分钟

第三章

基本形式

通过属性的线性组合来进行预测的函数
- d 个属性描述的实例
- $f(x) = w_1x_1 + w_2x_2 + ... + w_dx_d + b$
- 很好的可解释性：由于 w 直观表达了各属性在预测中的重要性

线性回归

最小二乘法：
- 基于均方误差最小化求解模型，即所有样本到直线上的欧式距离之和最短
几个概念
- 对数线性回归
  - $lny = w^Tx + b$
  - 形式上仍是线性回归
  - 实质上已是在求取输入空间到输出空间的非线性函数映射
- 广义线性模型
  - $y = g^{-1}(w^Tx + b)$
  - 联系函数： $g(·)$
- 对数线性回归是广义线性模型在 $g(·) = ln(·)$ 的特例

对数几率回归

单位阶跃函数

y = \begin{cases} 0, & \text{z < 0 -- 反例} \\ 0.5, & \text{z = 0 -- 任意判别} \\ 1, & \text{z > 0 -- 正例} \end{cases}

对数几率函数
- 由于单位阶跃函数不连续，找到的一种近似的 “替代函数”
- $y = \frac 1{1 + e ^ {-z}}$
几率:
$\frac y{1- y}$
对数几率:
$ln \frac y{1-y}$
对数几率回归：
- $y = \frac 1{1 + e ^ {-(w^Tx + b)}}$
- 一种分类学习方法
- 优点：
  - 避免假设分布不准确：直接对分类进行建模，无需事先假设数据分布
  - 可得到近似概率预测：利于用概率辅助的决策任务
  - 优秀的数学性质：对率函数是任意阶可导的凸函数，现有的许多数值优化算法都可直接用于求取最优解。

线性判别分析

首先，给定训练样例集
设法将样例投影到一条直线上
同类样例的投影点尽可能接近
异类样例的投影点尽可能远离
然后，在对新样本进行分类
将其投影到上面找到的这条直线上
根据投影点的位置来确定新样本的类别

多分类学习

拆解法：将多分类任务拆为若干个二分类任务求解
拆分策略：
- 一对一（OvO）：将这 N 个类别两两配对，从而产生 N (N 一 1) / 2 个二分类任务
- 一对其余（OvR）：每次将一个类的样例作为正例，所有其他类的样例作为反例来训练 N 个分类器
- 多对多（MvM）：
  - 每次将若干个类作为正类，若干个其他类作为反类
  - OvO 和 OvR 是 MvM 的特例
  - 技术：纠错输出码
    - 工作过程：
      - 编码：
        
        对 N 个类别做 M 次划分
        
        每次划分将一部分类别划为正类，一部分划为反类
        
        形成一个二分类训练集
        
        最后一共产生 M 个训练集，可训练出 M 个分类器
      - 解码：
        
        M 个分类器分别对测试样本进行预测
        
        这些预测标记组成一个编码
        
        将这个预测编码与每个类别各自的编码进行比较
        
        返回其中距离最小的类别作为最终预测结果
    - 对同等长度的编码，理论上来说，任意两个类别之间的编码距离越远，则纠错能力越强。因此，在码长较小时可根据这个原则计算出理论最优编码。但是编码的理论性质越好，并不能说明分类性能越好。所以最终模型，还需要“因地制宜”。

类别不平衡问题

类别不平衡：分类任务中不同类别的训练样例数目差别很大的情况
基本策略：再缩放（代价敏感学习的基础）