第六章
间隔与支持向量
- 分类学习
- 最基本的想法: 基于训练集 D 在样本空间中找到一个划分超平面,将不同类别的样本分开。
- 划分超平面:
- 支持向量:满足以下成立
- 间隔:两个异类支持向量到超平面的距离之和
- 支持向量机:
- 最大化间隔:
- 最大化间隔:
对偶问题
- KKT 条件
- SMO 算法
- 基本思路:先固定 之外的所有参数,然后求 上的极值
- SMO 先选取违背 KKT 条件程度最大的变量,第二个变量应选择一个使目标函数值减小最快的变量。所以尽量使选取两个变量,其所对应的样本之间的问隔是最大的。
核函数
-
核函数定理: 令 为输入空间, 是定义在 上的对称函数,则 是核函数当且仅当对于任意数据 ,“核矩阵” 总是半正定的。
- 只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用。
- 任何一个核函数都隐式地定义了一个称为“再生核希尔伯特空间” 的特征空间。
-
常用核函数
- 线性核:
- 多项式核:
- 高斯核:
- 拉普拉斯核:
- Sigmoid核:
- 线性核:
-
函数组合
- 若 和 为核函数,则对于任意正数 ,其线性组合也是核函数
- 若 和 为核函数,则核函数的直积也是核函数
- 若 为核函数,则对于任意函数 ,也是核函数
- 若 和 为核函数,则对于任意正数 ,其线性组合也是核函数
软间隔与正则化
-
软间隔 vs 硬间隔
- 硬间隔:所有样本都必须划分正确
- 软间隔:允许某些样本不满足划分(当然不满足约束的样本要尽可能的少)
-
正则化问题
支持向量回归
- 支持向量回归
- 即容忍某种偏差的绝对值,及落入间隔 ± 偏差形成的间隔带上,都可以被接受
核方法
- 表示定理
- 通过引入核函数来将线性学习器拓展为非线性学习器