西瓜书笔记(二)—— 第三章

147 阅读3分钟

第三章

基本形式

  • 通过属性的线性组合来进行预测的函数

    • d 个属性描述的实例
    • f(x)=w1x1+w2x2+...+wdxd+bf(x) = w_1x_1 + w_2x_2 + ... + w_dx_d + b
    • 很好的可解释性:由于 w 直观表达了各属性在预测中的重要性

线性回归

  • 最小二乘法:

    • 基于均方误差最小化求解模型,即所有样本到直线上的欧式距离之和最短
  • 几个概念

    • 对数线性回归

      • lny=wTx+blny = w^Tx + b
      • 形式上仍是线性回归
      • 实质上已是在求取输入空间到输出空间的非线性函数映射
    • 广义线性模型

      • y=g1(wTx+b)y = g^{-1}(w^Tx + b)
      • 联系函数:g()g(·)
    • 对数线性回归是广义线性模型在 g()=ln()g(·) = ln(·) 的特例

对数几率回归

  • 单位阶跃函数
y={0,z < 0 – 反例0.5,z = 0 – 任意判别1,z > 0 – 正例 y = \begin{cases} 0, & \text{z < 0 -- 反例} \\ 0.5, & \text{z = 0 -- 任意判别} \\ 1, & \text{z > 0 -- 正例} \end{cases}
  • 对数几率函数

    • 由于单位阶跃函数不连续,找到的一种近似的 “替代函数”

    • y=11+ez y = \frac 1{1 + e ^ {-z}}
  • 几率:

    y1y \frac y{1- y}
  • 对数几率:

    lny1y ln \frac y{1-y}
  • 对数几率回归:

    • y=11+e(wTx+b) y = \frac 1{1 + e ^ {-(w^Tx + b)}}
    • 一种分类学习方法

    • 优点:

      • 避免假设分布不准确:直接对分类进行建模,无需事先假设数据分布
      • 可得到近似概率预测:利于用概率辅助的决策任务
      • 优秀的数学性质:对率函数是任意阶可导的凸函数,现有的许多数值优化算法都可直接用于求取最优解。

线性判别分析

  1. 首先,给定训练样例集
  2. 设法将样例投影到一条直线上
  3. 同类样例的投影点尽可能接近
  4. 异类样例的投影点尽可能远离
  5. 然后,在对新样本进行分类
  6. 将其投影到上面找到的这条直线上
  7. 根据投影点的位置来确定新样本的类别

多分类学习

  • 拆解法:将多分类任务拆为若干个二分类任务求解

  • 拆分策略:

    • 一对一(OvO):将这 N 个类别两两配对,从而产生 N (N 一 1) / 2 个二分类任务

    • 一对其余(OvR):每次将一个类的样例作为正例,所有其他类的样例作为反例来训练 N 个分类器

    • 多对多(MvM):

      • 每次将若干个类作为正类,若干个其他类作为反类

      • OvOOvRMvM 的特例

      • 技术:纠错输出码

        • 工作过程:

          • 编码:

            1. 对 N 个类别做 M 次划分
            2. 每次划分将一部分类别划为正类,一部分划为反类
            3. 形成一个二分类训练集
            4. 最后一共产生 M 个训练集,可训练出 M 个分类器
          • 解码:

            1. M 个分类器分别对测试样本进行预测
            2. 这些预测标记组成一个编码
            3. 将这个预测编码与每个类别各自的编码进行比较
            4. 返回其中距离最小的类别作为最终预测结果
        • 对同等长度的编码,理论上来说,任意两个类别之间的编码距离越远,则纠错能力越强。因此,在码长较小时可根据这个原则计算出理论最优编码。但是编码的理论性质越好,并不能说明分类性能越好。所以最终模型,还需要“因地制宜”。

类别不平衡问题

  • 类别不平衡:分类任务中不同类别的训练样例数目差别很大的情况
  • 基本策略:再缩放(代价敏感学习的基础)