机器学习-特征选择与稀疏学习一、特征选择重要性特征选择旨在从原始特征中挑选出一些最有代表性、对学习任务最有效的特征，

一、特征选择

重要性

特征选择旨在从原始特征中挑选出一些最有代表性、对学习任务最有效的特征，以降低特征空间的维度，提高学习算法的效率和泛化性能。
可以去除不相关或冗余的特征，减少噪声的影响，使学习模型更加简洁和易于理解。

方法

过滤式方法：先对数据集进行特征选择，然后再训练学习器。例如，通过计算每个特征与类别标签的相关性来进行筛选。
包裹式方法：直接把最终要使用的学习器的性能作为特征子集的评价准则。它针对特定的学习器进行特征选择，通常效果较好，但计算开销较大。
嵌入式方法：将特征选择过程与学习器训练过程融合为一体。例如，在某些模型中，通过正则化项来自动进行特征选择。

二、稀疏学习

概念

稀疏学习是指学习得到一个系数向量或参数矩阵，其中大部分元素为零或接近零。这种稀疏性可以使得模型更加简洁，具有更好的解释性，同时也能降低计算复杂度和存储需求。

应用场景

在图像处理中，可以通过稀疏表示来提取图像的关键特征，实现图像压缩、去噪等任务。
在文本处理中，稀疏学习可以用于特征提取和文本分类，找到对文本分类最有贡献的特征词。

实现方法

正则化方法：通过在目标函数中添加正则化项，如 L1 正则化（Lasso）和 L2 正则化（Ridge），来诱导模型的稀疏性。L1 正则化倾向于使参数向量中的很多元素变为零，从而实现稀疏性。

总之，特征选择和稀疏学习在机器学习中起着重要的作用，它们可以帮助我们提高模型的性能、可解释性和计算效率。

三、子集搜索与评价

我们将属性称为“特征”，对当前学习任务有用的属性称为“相关特征”、没什么用的属性称为“无关特征”，从给定的特征集合中选择出相关特征子集的过程，称为“特征选择”
有一类特征称为“冗余特征”，它们所包含的信息能从其他特征中推演出来。例如，考虑立方体对象，若已有特征“底面长” “底面宽”，则“底面积”是冗余特征，因为它能从“底面长”与“底面宽” 得到.
第一个环节是“子集搜索”问题，给定特征集合，我们可将每个特征看作一个候选子集，对这 d 个候选单特征子集进行评价，假定最优，于是将作为第一轮的选定集；然后，在上一轮的选定集中加入一个特征，构成包含两个特征的候选子集，假定在这 d-1 个候选两特征子集中最优，且优于，于是将作为本轮的选定集；……假定在第k+1 轮时，最优的候选 (k+1) 特征子集不如上一轮的选定集，则停止生成候选子集，并将上一轮选定的 k 特征集合作为特征选择结果。这样逐渐增加相关特征的策略称为“前向”搜索
显然，上述策略都是贪心的，因为它们仅考虑了使本轮选定集最优
第二个环节是“子集评价”问题，给定数据集 D，假定 D 中第 i 类样本所占的比例为，为便于讨论，假定样本属性均为离散型，对属性子集 A，假定根据其取值将 D 分成了 V 个子集，每个子集中的样本在A上取值相同，于是我们可计算属性子集A的信息增益
其中信息熵定义为

信息增益 Gain(A)越大，意味着特征子集A包含的有助于分类的信息越多，于是，对每个候选特征子集，我们可基于训练数据集D来计算其信息增益，以此作为评价准则

四、过滤式选择

过滤式方法先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关。这相当于先用特征选择过程对初始特征进行“过滤”，再用过滤后的特征来训练模型
Relief 是一种著名的过滤式特征选择方法，该方法设计了一个“相关统计量”来度量特征的重要性，该统计量是一个向量，其每个分量分别对应于一个初始特征，而特征子集的重要性则是由子集中每个特征所对应的相关统计量分量之和来决定，于是，最终只需指定一个阀值，然后选择比大的相关统计量分量所对应的特征即可；也可指定欲选取的特征个数 k，然后选择相关统计量分量最大的 k 个特征.

五、包裹式选择

与过滤式特征选择不考虑后续学习器不同，包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则，换言之，包裹式特征选择的目的就是为给定学习器选择最有利于其性能、“量身定做”的特征子集.
一般而言，由于包裹式特征选择方法直接针对给定学习器进行优化，因此从最终学习器性能来看，包裹式特征选择比过滤式特征选择更好，但另一方面，由于在特征选择过程中需多次训练学习器，因此包裹式特征选择的计算开销通常比过滤式特征选择大得多

六、嵌入式选择与L1正则化

在过滤式和包裹式特征选择方法中，特征选择过程与学习器训练过程有明显的分别；与此不同，联入式特征选择是将特征选择过程与学习器训练过程融为一体，两者在同一个优化过程中完成，即在学习器训练过程中自动地进行了特征选择
给定数据集考虑最简单的线性回归模型，以平方误差为损失函数，则优化目标为

当样本特征很多，而样本数相对较少时，上式很容易陷入过拟合，为了缓解过拟合问题，可引入正则化项，则有

上式称为“岭回归”，通过引入L2范数正则化，能显著降低过拟合的风险

若采用L1范数，则有

L1范数和L2范数正则化都有助于降低过拟合风险，但前者还会带来一个额外的好处：它比后者更易于获得“稀疏”解，即它求得的 w会有更少的非零分量

七、稀疏表示与字典学习

不妨把数据集 D 考虑成一个矩阵，其每行对应于一个样本，每列对应于一个特征，特征选择所考虑的问题是特征具有“稀疏性”，即矩阵中的许多列与当前学习任务无关，通过特征选择去除这些列、则学习器训练过程仅需在较小的矩阵上进行，学习任务的难度可能有所降低，涉及的计算和存储开销会减少，学得模型的可解释性也会提高
现在我们来考虑另一种稀疏性：D 所对应的矩阵中存在很多零元素，但这些零元素并不是以整列、整行形式存在的.
为普通稠密表达的样本找到合适的字典，将样本转化为合适的稀疏表示形式，从而使学习任务得以简化，模型复杂度得以降低，通常称为“字典学习”，亦称“稀疏编码”。这两个称谓稍有差别，“字典学习”更侧重于学得字典的过程，而“稀疏编码”则更侧重于对样本进行稀疏表达的过程。由于两者通常是在同一个优化求解过程中完成的，因此下面我们不做进一步区分，笼统地称为字典学习

八、压缩感知

与特征选择、稀疏表示不同，压缩感知关注的是如何利用信号本身所具有的稀硫性，从部分观测样本中恢复原信号。通常认为，压缩感知分为“感知测量”和“重构恢复”这两个阶段。“感知测量”关注如何对原始信号进行处理以获得稀疏样本表示，这方面的内容涉及傅里叶变换、小波变换以及11.5 节介绍的字典学习、稀疏编码等，不少技术在压缩感知提出之前就已在信号处理等领域有很多研究；“重构恢复”关注的是如何基于稀疏性从少量观测中恢复原信号，这是压缩感知的精髓，当我们谈到压缩感知时，通常是指该部分.