一、 特征选择的基础概念
特征选择是指从给定的特征集合中选出与当前任务相关的特征子集
- 特征分类:
- 相关特征:对学习任务有用的属性
- 无关特征:与任务无关的属性
- 冗余特征:信息可由其他特征推导出来
- 必要性:
- 减轻维数灾难:减少计算量
- 降低学习难度:去除干扰,使模型更易捕捉关键因素
二、 特征选择的三大主流方法
特征选择通常包含子集搜索(如何找)和子集评价(如何评)两个关键环节
1. 过滤式选择 (Filter)
先进行特征选择,再训练学习器,特征选择过程与后续学习器无关
- 代表算法:Relief
- 核心逻辑:通过计算“相关统计量”来衡量特征重要性
- 猜中近邻 (Near-hit) 与 猜错近邻 (Near-miss):对样本 ,在其同类中找最近邻(猜中),在异类中找最近邻(猜错)
- 晦涩公式解析:
通俗解释:如果一个特征在同类样本之间距离很近(小),而在异类样本之间距离很远(大),那么 就会变大。这意味着该特征能够很好地把不同类别的样本“拉开”,把同类样本“聚拢”,因此该特征很重要
2. 包裹式选择 (Wrapper)
直接将最终学习器的性能(如分类误差)作为评价准则,为学习器“量身定做”特征子集
- 代表算法:LVW (Las Vegas Wrapper)
- 它在拉斯维加斯框架下使用随机策略进行搜索,以交叉验证的误差作为准则
- 优缺点:性能通常优于过滤式,但计算开销巨大,因为每次评价都要重新训练模型
3. 嵌入式选择 (Embedded)
将特征选择与学习器训练过程融为一体,在同一个优化过程中自动完成
- 核心手段:L1 正则化 (LASSO)
三、 稀疏学习与 L1 正则化
1. 为什么 L1 比 L2 更容易获得稀疏解?
- 几何解释:L1 范数的等值线是“方形”的(在二维中是菱形),其顶点位于坐标轴上。而平方误差项的等值线(椭圆)与这种有棱角的形状相交时,极大概率会落在顶点上,从而导致某些分量为 0(即稀疏)
2. 近端梯度下降 (PGD)
这是求解 L1 正则化问题的常用方法
- 晦涩知识点:软阈值算子
课件中给出了 的分量闭式解
通俗解释:这就像是一个“过滤器”。如果梯度下降后的值 比较小(绝对值小于 ),就直接把它“抹零”;如果比较大,就向原点方向收缩。通过这种方式,PGD 能够快速产生稀疏解
四、 稀疏表示与字典学习
- 目的:如果数据本身不是稀疏的(稠密矩阵),我们可以通过学习一个“字典” ,将原样本 表示为稀疏向量
- 数学形式:
- 第一项:重构误差,要求学到的稀疏表示还原回去后要像原数据
- 第二项:L1 范数,要求表示向量 必须是稀疏的
- 求解方法:KSVD 算法,通过变量交替优化(固定字典更新系数,固定系数更新字典)来解决
五、 压缩感知与矩阵补全
1. 压缩感知 (Compressed Sensing)
利用信号的稀疏性,用远低于奈奎斯特采样定理要求的频率进行采样,并精确重构原信号
- 限定等距性 (RIP):这是矩阵 必须满足的性质,确保在低维观测时能保留信号距离
- 等效转换:将 NP 难的 范数最小化问题转化为凸优化的 范数最小化问题(LASSO 形式)来求解
2. 矩阵补全 (Matrix Completion)
通过部分观测值推测矩阵中的未知值(如推荐系统中的评分矩阵)
- 核范数 (Nuclear Norm):矩阵秩 是非凸的、难以求解的 。核范数(所有奇异值之和)是秩的最佳凸近似,因此通过最小化核范数来近似求解