词概念总结相似度度量：无需满足距离度量的基本性质，即非度量距离。高斯分布由均值向量和协方差矩阵确定。根据先验分布选择

相似度度量：无需满足距离度量的基本性质，即非度量距离。度量距离基本性质：直递性、对称性、非负性、统一性

高斯混合：采用概率模型表达聚类原型高斯分布由均值向量和协方差矩阵确定。高斯混合分布由K个混合成分组成，一个混合成分对应一个高斯分布根据先验分布选择混合成分，根据混合成分的概率密度函数采样，生成对应样本。

聚类

密度聚类：邻域参数来刻画紧密程度

K均值算法：

密度聚类算法：

Agnes：自底向上，合并最近距离，更新距离矩阵

聚类性能度量指标：

k近邻学习：找出距离最近的K个训练样本，分类时用投票法选最多的类别标记作为输出回归时使用平均法，输出结果平均值加权平均法加权投票法基于距离远近属于懒惰学习

PCA:主成分分析，找一个超平面，具备：最近重构性：最大可分性：投影后方差最大化

流型学习：局部与欧式同胚，等度量映射，近邻图构建，局部线性嵌入LLE 度量学习：寻找空间就是寻找距离度量学习出一个距离度量低维嵌入：多维缩放

子集搜索与评价：特征选择属于数据预处理过程原因：

特征选择：产生候选子集，评价好坏，在结果中继续产生下一个子集，再评价

如何根据评价产生下一个，如何评价好坏：

特征选择方法：1.过滤式 2.包裹式 3.嵌入式

压缩感知：感知测量和重构恢复

稀疏表示和字典学习 前者更侧重稀疏表达，后者更侧重学习字典的过程控制字典规模影响稀疏程度

嵌入式选择与L1正则化

计算学习理论 pac：概率近似正确有限假设空间：可分情形即目标概念属于假设空间H

无限假设空间

半监督学习：未标记样本