复现经典:《统计学习方法》第22章 无监督学习方法总结

62 阅读2分钟

第22章 无监督学习方法总结

本文是李航老师的《统计学习方法》一书的代码复现。作者:黄海广

备注:代码都可以在github中下载。我将陆续将代码发布在公众号“机器学习初学者”,可以在这个专辑在线阅读。

无监督学习方法的关系和特点

第2篇详细介绍了八种常用的统计机器学习方法,即聚类方法(包括层次聚类与k均值聚类)、奇异值分解(SVD)、主成分分析(PCA)、无监督学习方法总结 22.1无监潜在语义分析(LSA)、概率潜在语义分析(PLSA)、马尔可夫链蒙特卡罗法(CMC,包括 Metropolis-Hastings-算法和吉布斯抽样)、潜在狄利克雷分配(LDA)、 PageRank算法。此外,还简单介绍了另外三种常用的统计机器学习方法,即非负矩阵分解(NMF)变分推理、幂法。这些方法通常用于无监督学习的聚类、降维、话题分析以及图分析。

表 无监督学习方法的特点

方法模型策略算法
聚类层次聚类聚类树类内样本距离最小启发式算法
k均值聚类k中心聚类样本与类中心距离最小迭代算法
高斯混合模型高斯混合模型似然函数最大EM算法
降维PCA低维正交空间方差最大SVD
话题分析LSA矩阵分解模型平方损失最小SVD
NMF矩阵分解模型平方损失最小非负矩阵分解
PLSAPLSA模型似然函数最大EM算法
LDALDA模型后验概率估计吉布斯抽样,变分推理
图分析PageRank有向图上的马尔可夫链平稳分布求解幂法

表 含有隐变量概率模型的学习方法的特点

算法基本原理收敛性收敛速度实现难易度适合问题
EM算法迭代计算、后验概率估计收敛于局部最优较快容易简单模型
变分推理迭代计算、后验概率近似估计收敛于局部最优较慢较复杂复杂模型
吉布斯抽样随机抽样、后验概率估计依概率收敛于全局最优较慢容易复杂模型

表 矩阵分解的角度看话题模型

下载地址

github.com/fengdu78/li…

参考资料:

[1] 《统计学习方法》: baike.baidu.com/item/统计学习方法…

[2] 黄海广: github.com/fengdu78

[3]  github: github.com/fengdu78/li…