人工智能学习笔记 - 机器学习算法 - 无监督学习

37 阅读1分钟

人工智能学习笔记 - 机器学习算法 - 无监督学习

无监督学习是在没有标签数据的情况下,从数据中自动发现结构、模式或分布特征的方法。
其核心目标不是预测,而是理解数据本身,常用于探索性分析、特征学习和数据预处理。


无监督学习的主要任务

  • 聚类(Clustering):发现数据中的群组结构
  • 降维(Dimensionality Reduction):压缩特征、可视化高维数据
  • 密度估计(Density Estimation):建模数据的概率分布

聚类(Clustering)

聚类的目标是:
使同一簇内样本相似度高,不同簇之间相似度低。


K-means 聚类

基本思想

将数据划分为 KK 个簇,每个簇由其中心(质心)表示。

目标函数:

min{μk}i=1nxiμci2\min_{\{\mu_k\}} \sum_{i=1}^{n} \|\mathbf{x}_i - \mu_{c_i}\|^2

其中:

  • μk\mu_k:第 kk 个簇的中心
  • cic_i:样本 xi\mathbf{x}_i 所属簇编号

算法流程
  • 随机初始化 KK 个质心
  • 分配样本到最近的质心
  • 更新质心为簇内样本均值
  • 重复直至收敛

特点
  • 简单高效
  • 需要指定 KK
  • 对初始值和异常值敏感
  • 假设簇为球状、大小相近

层次聚类(Hierarchical Clustering)

基本思想

通过不断合并或拆分簇,构建一棵聚类树(树状图,dendrogram)。


两种方式
  • 自底向上(凝聚型)
  • 自顶向下(分裂型)

常见距离定义
  • 单链接(最小距离)
  • 全链接(最大距离)
  • 平均链接

特点
  • 不需要预先指定簇数
  • 可解释性强
  • 计算复杂度较高

DBSCAN(Density-Based Spatial Clustering)

基本思想

基于密度定义簇,能发现任意形状的簇。

核心参数:

  • ε\varepsilon:邻域半径
  • MinPts:最小样本数

样本类型
  • 核心点:邻域内点数 ≥ MinPts
  • 边界点:邻域内点数 < MinPts,但靠近核心点
  • 噪声点:不属于任何簇

特点
  • 不需要指定簇数
  • 能识别噪声
  • 对参数较敏感
  • 高维数据效果下降

高斯混合模型(Gaussian Mixture Model, GMM)

基本思想

假设数据由多个高斯分布混合生成:

p(x)=k=1KπkN(xμk,Σk)p(\mathbf{x}) = \sum_{k=1}^{K} \pi_k \mathcal{N}(\mathbf{x} \mid \mu_k, \Sigma_k)

其中:

  • πk\pi_k:混合权重
  • μk\mu_k:均值
  • Σk\Sigma_k:协方差矩阵

参数估计:EM 算法
  • E 步:计算后验概率(软分配)
  • M 步:更新模型参数

特点
  • 软聚类
  • 能建模椭圆形簇
  • 对初始化敏感

降维(Dimensionality Reduction)

降维用于:

  • 减少计算成本
  • 缓解维度灾难
  • 可视化高维数据
  • 去噪和特征压缩

PCA(主成分分析)

核心思想

寻找方差最大的正交方向进行投影。


优化目标
maxw  Var(Xw)s.t. w=1\max_{\mathbf{w}} \; \mathrm{Var}(\mathbf{X}\mathbf{w}) \quad \text{s.t. } \|\mathbf{w}\|=1

数学本质
  • 对协方差矩阵做特征值分解
  • 取最大特征值对应的特征向量

特点
  • 线性降维
  • 保留全局结构
  • 不适合强非线性数据

t-SNE

基本思想

保持高维空间中的局部邻域结构,用于可视化。


特点
  • 非线性
  • 可视化效果极好
  • 不适合特征压缩
  • 不保持全局结构

UMAP

基本思想

基于流形假设和拓扑结构的非线性降维方法。


特点
  • 比 t-SNE 更快
  • 同时保留局部与部分全局结构
  • 既可视化也可降维

密度估计(Density Estimation)

密度估计的目标是建模数据的真实分布:

p(x)p(\mathbf{x})

高斯混合模型(GMM)

  • 参数化密度模型
  • 适合多峰分布
  • 可生成新样本

核密度估计(KDE)

定义
p^(x)=1nhdi=1nK(xxih)\hat{p}(\mathbf{x}) = \frac{1}{n h^d} \sum_{i=1}^{n} K\left(\frac{\mathbf{x} - \mathbf{x}_i}{h}\right)

其中:

  • K()K(\cdot):核函数(常用高斯核)
  • hh:带宽参数

特点
  • 非参数方法
  • 灵活但计算代价高
  • 对带宽敏感

小结

  • 聚类用于发现数据结构
  • 降维用于压缩和可视化
  • 密度估计用于刻画数据分布
  • 无监督学习是理解数据的基础工具