相似度度量:无需满足距离度量的基本性质,即非度量距离。 度量距离基本性质:直递性、对称性、非负性、统一性
高斯混合:采用概率模型表达聚类原型 高斯分布由均值向量和协方差矩阵确定。 高斯混合分布由K个混合成分组成,一个混合成分对应一个高斯分布 根据先验分布选择混合成分,根据混合成分的概率密度函数采样,生成对应样本。
聚类
密度聚类:邻域参数来刻画紧密程度
K均值算法:
密度聚类算法:
Agnes:自底向上,合并最近距离,更新距离矩阵
聚类性能度量指标:
降维与度量学习
k近邻学习:找出距离最近的K个训练样本,分类时用投票法选最多的类别标记作为输出 回归时使用平均法,输出结果平均值 加权平均法 加权投票法基于距离远近 属于懒惰学习
PCA:主成分分析,找一个超平面,具备: 最近重构性: 最大可分性:投影后方差最大化
流型学习: 局部与欧式同胚,等度量映射,近邻图构建,局部线性嵌入LLE 度量学习: 寻找空间就是寻找距离度量 学习出一个距离度量 低维嵌入:多维缩放
特征选择与稀疏学习:
子集搜索与评价:特征选择属于数据预处理过程 原因:
-
1.解决维数灾难 -
2.降低难度,只留关键因素
特征选择:产生候选子集,评价好坏,在结果中继续产生下一个子集,再评价
如何根据评价产生下一个,如何评价好坏:
- 1.子集搜索
- 2.子集评价
特征选择方法:1.过滤式 2.包裹式 3.嵌入式
- 过滤式:先选择特征,用该特征训练模型
- 包裹时:最终学习器的性能作为标准,选择量身定做的特征子集
- 嵌入式:特征选择和学习器训练过程融为一体
压缩感知:感知测量和重构恢复
- 感知测量:处理原信号,获得稀疏样本
- 重构恢复:基于稀疏性从观测中恢复原信号
稀疏表示和字典学习 前者更侧重稀疏表达,后者更侧重学习字典的过程 控制字典规模影响稀疏程度
嵌入式选择与L1正则化
计算学习理论 pac:概率近似正确 有限假设空间:可分情形即目标概念属于假设空间H
无限假设空间
半监督学习: 未标记样本