【机器学习】10_特征选择与稀疏学习本文介绍了特征选择的基础概念和主流方法。特征选择旨在从特征集合中筛选出与任务相关的子

一、特征选择的基础概念

特征选择是指从给定的特征集合中选出与当前任务相关的特征子集

特征选择通常包含子集搜索（如何找）和子集评价（如何评）两个关键环节

先进行特征选择，再训练学习器，特征选择过程与后续学习器无关

代表算法：Relief
- 核心逻辑：通过计算“相关统计量”来衡量特征重要性
- 猜中近邻 (Near-hit) 与猜错近邻 (Near-miss)：对样本 $x_i$ ，在其同类中找最近邻（猜中），在异类中找最近邻（猜错）
- 晦涩公式解析： $\delta^j = \sum_i -diff(x_i^j, x_{i,nh}^j)^2 + diff(x_i^j, x_{i,nm}^j)^2$
  
  通俗解释：如果一个特征在同类样本之间距离很近（ $diff$ 小），而在异类样本之间距离很远（ $diff$ 大），那么 $\delta^j$ 就会变大。这意味着该特征能够很好地把不同类别的样本“拉开”，把同类样本“聚拢”，因此该特征很重要

直接将最终学习器的性能（如分类误差）作为评价准则，为学习器“量身定做”特征子集

代表算法：LVW (Las Vegas Wrapper)
- 它在拉斯维加斯框架下使用随机策略进行搜索，以交叉验证的误差作为准则
- 优缺点：性能通常优于过滤式，但计算开销巨大，因为每次评价都要重新训练模型

将特征选择与学习器训练过程融为一体，在同一个优化过程中自动完成

几何解释：L1 范数的等值线是“方形”的（在二维中是菱形），其顶点位于坐标轴上。而平方误差项的等值线（椭圆）与这种有棱角的形状相交时，极大概率会落在顶点上，从而导致某些分量为 0（即稀疏）

这是求解 L1 正则化问题的常用方法

晦涩知识点：软阈值算子课件中给出了 $x_{k+1}$ 的分量闭式解 $x_{k+1}^i = \text{soft\_threshold}(z^i, \frac{\lambda}{L})$

通俗解释：这就像是一个“过滤器”。如果梯度下降后的值 $z^i$ 比较小（绝对值小于 $\frac{\lambda}{L}$ ），就直接把它“抹零”；如果比较大，就向原点方向收缩。通过这种方式，PGD 能够快速产生稀疏解

目的：如果数据本身不是稀疏的（稠密矩阵），我们可以通过学习一个“字典” $B$ ，将原样本 $x$ 表示为稀疏向量 $\alpha$
数学形式： $\min_{B, \alpha_i} \sum_{i=1}^m \|x_i - B\alpha_i\|_2^2 + \lambda \sum_{i=1}^m \|\alpha_i\|_1$
- 第一项：重构误差，要求学到的稀疏表示还原回去后要像原数据
- 第二项：L1 范数，要求表示向量 $\alpha$ 必须是稀疏的
求解方法：KSVD 算法，通过变量交替优化（固定字典更新系数，固定系数更新字典）来解决

利用信号的稀疏性，用远低于奈奎斯特采样定理要求的频率进行采样，并精确重构原信号

通过部分观测值推测矩阵中的未知值（如推荐系统中的评分矩阵）

核范数 (Nuclear Norm)：矩阵秩 $rank(X)$ 是非凸的、难以求解的。核范数（所有奇异值之和）是秩的最佳凸近似，因此通过最小化核范数来近似求解