1. 前言
分类问题的一般描述可总结为:利用已知标签的训练集X训练出一个模型,该模型包含一个映射关系h:X->Y, h应该能够对新的数据点预测其类别,并使得预测结果的正确率尽可能高。
1.1 Logistic回归问题的描述
- 给定输入特征向量x,希望估计出它属于Y={0,1}两类的概率。
- 通常要加上sigmoid函数保证预测的y属于[0, 1]
- 损失函数则使用的是:交叉熵损失函数
- 通过损失函数对预测值和期望值求损失,使用梯度下降法去更新参数
2. 支持向量机
support vector machine
在线性可分时,在原空间寻找两类样本的最优分类超平面。在线性不可分时,加入松弛变量并通过使用非线性映射将低维输入空间的样本映射到高纬度空间使其变为线性可分,这样就可以在该特征空间中寻找最优分类超平面。
2.1 核函数
和回归方法的中都支持线性性和非线性类型的数据类型。非线性类型通常是二维平面不可分,为了使数据可分,需要通过一个函数将原始数据映射到高维空间,从而使得数据在高维空间很容易可分,需要通过一个函数将原始数据映射到高维空间,从而使得数据在高维空间很容易区分,这样就达到数据分类或回归的目的,而实现这一目标的函数称为核函数。
工作原理:当低维空间内线性不可分时,可以通过高位空间实现线性可分。但如果在高维空间内直接进行分类或回归时,则存在确定非线性映射函数的形式和参数问题,而最大的障碍就是高维空间的运算困难且结果不理想。通过核函数的方法,可以将高维空间内的点积运算,巧妙转化为低维输入空间内核函数的运算,从而有效解决这一问题。
常见的核函数:
- 高斯核
- sigmoid核
- 拉普拉斯核