人工智能学习笔记 - 机器学习算法 - 无监督学习
无监督学习是在没有标签数据的情况下,从数据中自动发现结构、模式或分布特征的方法。
其核心目标不是预测,而是理解数据本身,常用于探索性分析、特征学习和数据预处理。
无监督学习的主要任务
- 聚类(Clustering):发现数据中的群组结构
- 降维(Dimensionality Reduction):压缩特征、可视化高维数据
- 密度估计(Density Estimation):建模数据的概率分布
聚类(Clustering)
聚类的目标是:
使同一簇内样本相似度高,不同簇之间相似度低。
K-means 聚类
基本思想
将数据划分为 个簇,每个簇由其中心(质心)表示。
目标函数:
其中:
- :第 个簇的中心
- :样本 所属簇编号
算法流程
- 随机初始化 个质心
- 分配样本到最近的质心
- 更新质心为簇内样本均值
- 重复直至收敛
特点
- 简单高效
- 需要指定
- 对初始值和异常值敏感
- 假设簇为球状、大小相近
层次聚类(Hierarchical Clustering)
基本思想
通过不断合并或拆分簇,构建一棵聚类树(树状图,dendrogram)。
两种方式
- 自底向上(凝聚型)
- 自顶向下(分裂型)
常见距离定义
- 单链接(最小距离)
- 全链接(最大距离)
- 平均链接
特点
- 不需要预先指定簇数
- 可解释性强
- 计算复杂度较高
DBSCAN(Density-Based Spatial Clustering)
基本思想
基于密度定义簇,能发现任意形状的簇。
核心参数:
- :邻域半径
- MinPts:最小样本数
样本类型
- 核心点:邻域内点数 ≥ MinPts
- 边界点:邻域内点数 < MinPts,但靠近核心点
- 噪声点:不属于任何簇
特点
- 不需要指定簇数
- 能识别噪声
- 对参数较敏感
- 高维数据效果下降
高斯混合模型(Gaussian Mixture Model, GMM)
基本思想
假设数据由多个高斯分布混合生成:
其中:
- :混合权重
- :均值
- :协方差矩阵
参数估计:EM 算法
- E 步:计算后验概率(软分配)
- M 步:更新模型参数
特点
- 软聚类
- 能建模椭圆形簇
- 对初始化敏感
降维(Dimensionality Reduction)
降维用于:
- 减少计算成本
- 缓解维度灾难
- 可视化高维数据
- 去噪和特征压缩
PCA(主成分分析)
核心思想
寻找方差最大的正交方向进行投影。
优化目标
数学本质
- 对协方差矩阵做特征值分解
- 取最大特征值对应的特征向量
特点
- 线性降维
- 保留全局结构
- 不适合强非线性数据
t-SNE
基本思想
保持高维空间中的局部邻域结构,用于可视化。
特点
- 非线性
- 可视化效果极好
- 不适合特征压缩
- 不保持全局结构
UMAP
基本思想
基于流形假设和拓扑结构的非线性降维方法。
特点
- 比 t-SNE 更快
- 同时保留局部与部分全局结构
- 既可视化也可降维
密度估计(Density Estimation)
密度估计的目标是建模数据的真实分布:
高斯混合模型(GMM)
- 参数化密度模型
- 适合多峰分布
- 可生成新样本
核密度估计(KDE)
定义
其中:
- :核函数(常用高斯核)
- :带宽参数
特点
- 非参数方法
- 灵活但计算代价高
- 对带宽敏感
小结
- 聚类用于发现数据结构
- 降维用于压缩和可视化
- 密度估计用于刻画数据分布
- 无监督学习是理解数据的基础工具