高维数据可视化
数据的维度: 数据包含的属性的数量。
多维度数据: 拥有多个属性的数据。
三维数据局限性:
(1)屏幕是二维的、三维散点图的点与点之间会遮挡;
(2)从不同三维视角观察数据点会得到不同的分布。
高维数据: 维度大于等于2的数据。
高维数据在日常生活中的应用: 医疗数据、城市数据、体育数据。
高维数据变换——降维
降维在机器学习、数据挖掘、信息检索、模式识别等信息处理的许多领域具有重要作用。在监督的机器学习中, 如果在预测输出的时候有许多不必要的特征,会使得算法的性能下降。在机器学习、计算机视觉、模式识别等领域,一个很重要的问题是如何提取少数量的特征。对此,一种常用的解决方式是使用降维技术。
方法: 使用线性或非线性变换将高维数据投影到较低维子空间。
线性方法: 主成分分析;多维度分析。
非线性方法: 等度量映射;局部线性嵌入。
优点: 消除冗余;减少被处理的数量;数据呈现方便。
缺点: 数据丢失。
应用: 数据可视化;数据挖掘;模式识别。
已有降维方法分类
(1)线性的:以PCA为代表, 缺点:要求数据嵌入在一个线性的空间。
(2)非线性:基于流形学习的方法。缺点:低维空间到高维空间没有函数映射关系。
(a)局部的方法:局部线性嵌入(Locally Linear Embedding ,LLE), Laplacian Eigenmap(LE)
(b)全局的方法:ISOMAP
(c)弥补缺点的方法: 显式寻找一个嵌入的函数,线性的或者核希尔伯特空间(kernel Hilbert space, RKHS),如基于回归和谱图的方法:谱回归(Spectral Regression,SR)