词概念总结

220 阅读2分钟

相似度度量:无需满足距离度量的基本性质,即非度量距离。 度量距离基本性质:直递性、对称性、非负性、统一性

高斯混合:采用概率模型表达聚类原型 高斯分布由均值向量和协方差矩阵确定。 高斯混合分布由K个混合成分组成,一个混合成分对应一个高斯分布 根据先验分布选择混合成分,根据混合成分的概率密度函数采样,生成对应样本。

聚类

密度聚类:邻域参数来刻画紧密程度

K均值算法:

密度聚类算法:

Agnes:自底向上,合并最近距离,更新距离矩阵

聚类性能度量指标:

降维与度量学习

k近邻学习:找出距离最近的K个训练样本,分类时用投票法选最多的类别标记作为输出 回归时使用平均法,输出结果平均值 加权平均法 加权投票法基于距离远近 属于懒惰学习

PCA:主成分分析,找一个超平面,具备: 最近重构性: 最大可分性:投影后方差最大化

流型学习: 局部与欧式同胚,等度量映射,近邻图构建,局部线性嵌入LLE 度量学习: 寻找空间就是寻找距离度量 学习出一个距离度量 低维嵌入:多维缩放

特征选择与稀疏学习:

子集搜索与评价:特征选择属于数据预处理过程 原因:

  • 1.解决维数灾难
    
  • 2.降低难度,只留关键因素
    

特征选择:产生候选子集,评价好坏,在结果中继续产生下一个子集,再评价

如何根据评价产生下一个,如何评价好坏:

  • 1.子集搜索
  • 2.子集评价

特征选择方法:1.过滤式 2.包裹式 3.嵌入式

  • 过滤式:先选择特征,用该特征训练模型
  • 包裹时:最终学习器的性能作为标准,选择量身定做的特征子集
  • 嵌入式:特征选择和学习器训练过程融为一体

压缩感知:感知测量和重构恢复

  • 感知测量:处理原信号,获得稀疏样本
  • 重构恢复:基于稀疏性从观测中恢复原信号

稀疏表示和字典学习 前者更侧重稀疏表达,后者更侧重学习字典的过程 控制字典规模影响稀疏程度

嵌入式选择与L1正则化

计算学习理论 pac:概率近似正确 有限假设空间:可分情形即目标概念属于假设空间H

无限假设空间

半监督学习: 未标记样本