大家好,这里是好评笔记,本文为试读,查看全文请移步公主号:Goodnote。本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍强化学习。
@[toc]
特征工程(Fzeature Engineering)
1. 特征提取(Feature Extraction)
特征提取:从原始数据中提取能够有效表征数据特征的过程。它将原始数据转换为适合模型输入的特征表示。
手工特征提取(Manual Feature Extraction):
- 文本数据:
- 词袋模型(Bag of Words):将文本数据转化为词频向量,每个单词是一个维度,值为该单词在文本中出现的次数。
- TF-IDF:为词袋模型加入词频-逆文档频率(Term Frequency-Inverse Document Frequency),降低常见词语的权重,提升重要词语的权重。
- N-gram:将连续的 N 个词作为一个特征,捕捉词语间的局部依赖关系。
- 图像数据:
- 边缘检测:使用 Sobel 算子、Canny 边缘检测等方法提取图像边缘信息。
- SIFT(尺度不变特征变换):提取图像的关键点和局部特征,具有尺度不变性和旋转不变性。
- HOG(方向梯度直方图):将图像分块,并统计每块的梯度方向直方图,用于描述局部形状和纹理特征。
- 时间序列数据:
- 移动平均:对时间序列进行平滑,消除短期波动。
- 傅里叶变换:将时间域的信号转化为频域信号,分析数据的周期性。
- 窗口函数:将时间序列分为若干窗口,分别计算每个窗口的统计特征,如均值、方差等。
自动特征提取(Automated Feature Extraction):
- 使用卷积神经网络(CNN):从图像中自动提取高级特征,如边缘、纹理、形状等。
- 使用循环神经网络(RNN):处理时间序列数据,捕捉长时间依赖关系。
- 使用BERT(Transformer):通过自监督学习自动提取上下文敏感的文本特征。
- 自动编码器(Autoencoder):使用无监督学习从数据中提取低维特征表示,捕捉数据的潜在结构和模式。
2. 特征选择(Feature Selection)
特征选择(Feature Selection)是指从原始特征集中挑选出与目标任务最相关的特征,以提高模型的性能、减少训练时间以及降低过拟合的风险。特征选择方法主要分为三类:过滤法(Filter Methods)、包裹法(Wrapper Methods) 和 嵌入法(Embedded Methods)。
1. 过滤法(Filter Methods)
- 原理:独立于模型,训练前首先根据某些统计指标对特征进行评分,然后选择得分较高的特征。这种方法不依赖于特定的学习算法,只是基于数据本身的特性进行筛选。
- 常见方法:
- 方差选择法:剔除方差较小的特征,认为方差小的特征对目标值影响小。
- 皮尔森相关系数:计算特征与目标变量之间的线性相关性,选择线性相关性较高的特征。
- 互信息:衡量特征与目标变量之间的信息增益,选择信息量大的特征。
- 优点:计算效率高,易于实现。
- 缺点:未考虑特征之间的相互作用,可能遗漏组合特征的重要性。
2. 包裹法(Wrapper Methods)
- 原理:在训练中,通过训练模型评估特征子集的表现,使用搜索策略找到对目标任务最优的特征组合。包裹法直接根据模型的性能进行选择,通常通过交叉验证来评估特征子集的好坏。
- 常见方法:
- 前向选择(Forward Selection):从空集开始,逐步添加对模型性能提升最大的特征。
- 后向消除(Backward Elimination):从所有特征开始,逐步移除对模型性能影响最小的特征。
- 优点:能够考虑特征之间的相互作用,适合复杂的特征选择任务。
- 缺点:计算开销大,尤其是当特征数目较多时,训练多个模型的过程会非常耗时。
3. 嵌入法(Embedded Methods)
- 原理:嵌入法结合了过滤法和包裹法的优点,直接在模型训练过程中自动选择特征。它通过学习算法自动选择最重要的特征,使特征选择与模型训练同时进行。
- 常见方法:
- L1正则化(Lasso回归):通过在损失函数中添加L1正则化项,使**部分特征的系数变为零,从而进行特征选择。
- 决策树及其变体(如随机森林、XGBoost):树模型的特征重要性得分可以用于选择重要特征。
- Elastic Net:结合L1和L2正则化的优势,在保持模型稀疏性的同时,减少了多重共线性的影响,进行特征选择和模型优化。
- 优点:特征选择与模型训练同时完成,考虑特征间的相互作用,效率较高。
- 缺点:需要根据特定算法来进行选择,不具有模型无关性。
4. 其他方法
- PCA(主成分分析):虽然PCA是降维方法,但在某些场景下可以间接用于特征选择。通过对数据进行线性变换,将多个原始特征组合成少数几个主成分。
- LDA(线性判别分析):常用于分类问题的降维,也可以视作一种特征选择方法。
- 基于稳定性选择(Stability Selection):通过在多次子样本集上重复训练模型,并选择那些在多个子集上都表现重要的特征,从而增强选择的鲁棒性。
5. 选择方法的应用场景
详细全文请移步公主号:Goodnote。