t-SNE
t-SNE(t-Distributed Stochastic Neighbor Embedding)是一种降维和可视化技术,用于将高维数据映射到二维或三维空间中。它是一种非线性的降维方法,旨在保留原始数据之间的局部相似性关系。由Laurens van der Maaten和Geoffrey Hinton于2008年提出。在此之前,常用的降维方法如PCA(Principal Component Analysis)等主要关注全局结构,而缺乏对局部结构的捕捉能力。
t-SNE通过计算样本之间的相似度,并尝试在低维嵌入空间中保持这些相似度关系。它使用随机梯度下降等优化算法来最小化高维空间和低维嵌入空间之间的Kullback-Leibler散度。结果是,具有类似特征的样本会在低维投影中更接近。
因为t-SNE能够捕捉到复杂、非线性结构以及聚类效应,所以它通常被用于可视化高维数据集中不同类别或群组之间的分布关系。例如,在机器学习领域,可以使用t-SNE将特征向量表示为二维或三维点云图,并观察不同类别样本之间的分离程度。