探索机器学习的广袤天地:无监督学习

86 阅读3分钟

无监督学习是机器学习的一个重要分支,它致力于在没有明确标签或指导信息的情况下,从数据中自动发现模式、结构和规律。这类算法广泛应用于数据预处理、降维、聚类、异常检测等多个领域。下面是对无监督学习主要方法的概览:

2. 无监督学习

2.1. 高斯混合模型 (Gaussian Mixture Models, GMM)

  • 2.1.1. 高斯混合:GMM假设数据由多个高斯分布混合而成,常用于密度估计和聚类。
  • 2.1.2. 变分贝叶斯高斯混合:加入贝叶斯框架,使用变分推断方法估计模型参数,允许不确定性的处理。

2.2. 流形学习 (Manifold Learning)

流形学习旨在寻找高维数据中的低维结构。

  • 2.2.2. Isomap:基于测地距离的降维方法。
  • 2.2.3. 局部线性嵌入 (Locally Linear Embedding, LLE):保持局部线性关系的降维。
  • 2.2.4. 修改的局部线性嵌入 (Modified LLE):LLE的改进版,提高稳定性。
  • 2.2.5. Hessian Eigenmapping:通过Hessian矩阵的特征值分解进行降维。
  • 2.2.6. 谱嵌入 (Spectral Embedding):基于图的拉普拉斯算子的谱分析。
  • 2.2.7. 局部切线空间对齐 (Local Tangent Space Alignment, LTSA):考虑局部切线空间来对齐降维。
  • 2.2.8. 多维尺度缩放 (Multi-dimensional Scaling, MDS):根据数据点间的距离重构低维表示。
  • 2.2.9. t-分布邻域嵌入 (t-SNE):基于相似性的高维数据可视化方法。
  • 2.2.10. 实用技巧:选择合适方法需考虑数据特性,如噪声、维度、样本量等。

2.3. 聚类 (Clustering)

  • 2.3.1. 聚类方法概述:包括划分、层次、密度、谱等聚类方法。
  • 2.3.2. K-means:最广泛应用的划分聚类方法,基于距离。
  • 2.3.3. 亲和传播 (Affinity Propagation):数据点间相互传递信息确定簇中心。
  • 2.3.4. 均值漂移 (Mean Shift):基于密度的滑动窗口方法,寻找密度峰。
  • 2.3.5. 谱聚类:基于图理论,利用数据的邻接矩阵。
  • 2.3.6. 层次聚类:构建数据点间相似性树状结构。
  • 2.3.7. DBSCAN:基于密度的聚类,自动发现任意形状的簇。
  • 2.3.8. HDBSCAN:DBSCAN的改进,处理不同密度区域更好。
  • 2.3.9. OPTICS:基于顺序的DBSCAN变体,输出聚类顺序。
  • 2.3.10. BIRCH:树结构聚类,适合大数据集。
  • 2.3.11. 性能评估:轮廓系数、Calinski-Harabasz指数等。

2.4. 双聚类 (Biclustering)

同时对行和列进行聚类,适用于数据分析和生物信息学等领域。

  • 2.4.1. 谱协同聚类:联合行和列进行谱聚类。
  • 2.4.2. 谱双聚类:直接优化相关度量进行双聚类。
  • 2.4.3. 双聚类评估:根据具体应用设定评价指标。

2.5. 信号分解与矩阵分解

  • 2.5.1. 主成分分析 (PCA):降维,提取数据主成分。
  • 2.5.2. 核PCA:非线性数据的PCA。
  • 2.5.3. 截断奇异值分解:用于降维和文本分析。
  • 2.5.4. 字典学习:学习数据的稀疏表示。
  • 2.5.5. 因子分析:寻找隐藏变量解释观测数据。
  • 2.5.6. 独立成分分析 (ICA):分离混合信号的原始源。
  • 2.5.7. 非负矩阵分解 (NMF):寻找非负基和系数。
  • 2.5.8. Latent Dirichlet Allocation (LDA):主题模型,文档主题分析。

2.6. 协方差估计

  • 2.6.1. 经验协方差:直接计算。
  • 2.6.2. 缩减协方差:正则化处理。
  • 2.6.3. 稀疏逆协方差:寻找稀疏结构。
  • 2.6.4. 鲁棒协方差估计:抗噪能力更强。

2.7. 新奇性与异常检测

  • 2.7.1. 异常检测方法概述:包括统计、距离、密度等方法。
  • 2.7.2. 新奇检测:识别未见过的数据点。
  • 2.7.3. 异常检测:找出数据中的离群点。
  • 2.7.4. LOF (Local Outlier Factor):基于局部密度的离群点检测。

2.8. 密度估计

  • 2.8.1. 直方图:数据分布的简单估计。
  • 2.8.2. 核密度估计:平滑估计数据分布。

2.9. 无监督神经网络模型

  • 2.9.1. 限制玻尔兹曼机 (Restricted Boltzmann Machines, RBMs):生成模型,用于特征学习和预处理。

无监督学习方法在数据分析、模式识别、推荐系统、图像处理等众多领域有广泛应用,是数据科学家和机器学习工程师不可或缺的工具箱。