潜在语义分析是一种无监督学习方法,主要用于文本的话题分析,其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。
潜在语义分析试图从大量的文本数据中发现潜在的问题,以话题向量表示文本的语义内容,以话题向量空间的度量更准确地表示文本之间地语义相似度。
潜在语义分析使用的是非概率的话题分析模型。具体地,将文本集合表示为单词-文本矩阵,对单词-文本矩阵进行奇异值分解,从而得到话题向量,以及文本在话题向量空间地表示。
单词向量空间
文本信息处理的一个核心问题
是对文本的语义内容进行表示,并进行文本之间的语义相似度计算。
利用向量空间模型(vector space model,VSM),也就是单词向量空间模型(word vector space model)。
基本想法:用一个向量表示文本的“语义”,向量的每一维对应一个单词,其数值为该单词在该文本中出现的频数或权值
基本假设: 文本中所有单词的出现情况表示了文本的语义内容;
文本集合中的每个文本都表示为一个向量,存在于一个向量空间;
向量空间的度量,如内积或标准化内积表示文本之间的“语义相似度”。
- 单词文本矩阵是稀疏矩阵,元素为频数或权值
- 权值:常用
单词频率-逆文本频率
(term frequency-inverse document frequency,TF-IDF)表示,其定义是
优点:
是模型简单,计算效率高
。因为单词向量通常是稀疏的,两个向量的内积计算只需要在其同不为零的维度上进行即可,需要的计算很少,可以高效地完成
缺点:
内积相似度
未必能够准确表达两个文本的语义相似度上- 因为自然语言的单词具有
一词多义性
(polysemy)及多词一义性
(synonymy),所以基于单词向量的相似度计算存在不精确的问题
话题向量空间
话题向量空间模型:
-
给定一个文本,用话题空间的一个向量表示该文本,该向量的每一分量对应一个话题,其数值为该话题在该文本中出现的权值
-
用两个向量的内积或标准化内积表示对应的两个文本的语义相似度
-
注意话题的个数通常远远小于单词的个数,话题向量空间模型更加抽象
-
潜在语义分析正是构建话题向量空间的方法(即话题分析的方法)
-
单词向量空间模型与话题向量空间模型互为补充,两者可以同时使用
潜在语义分析算法
对单词-文本矩阵进行奇异值分解,将其左矩阵作为话题向量空间,将其对角矩阵与右矩阵的乘积作为文本在话题向量空间的表示。
例子
非负矩阵分解算法
对单词-文本矩阵进行非负矩阵分解,将其左矩阵作为话题向量空间,将其右矩阵作为在话题向量空间的表示。注意通常单词-文本矩阵是非负的。
参考文章(32条消息) 潜在语义分析(Latent Semantic Analysis,LSA)_Michael阿明的博客-CSDN博客