潜在语义分析(Latent Semantic Analysis,LSA)

338 阅读3分钟

潜在语义分析是一种无监督学习方法,主要用于文本的话题分析,其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。

潜在语义分析试图从大量的文本数据中发现潜在的问题,以话题向量表示文本的语义内容,以话题向量空间的度量更准确地表示文本之间地语义相似度。

潜在语义分析使用的是非概率的话题分析模型。具体地,将文本集合表示为单词-文本矩阵,对单词-文本矩阵进行奇异值分解,从而得到话题向量,以及文本在话题向量空间地表示。

单词向量空间

文本信息处理的一个核心问题是对文本的语义内容进行表示,并进行文本之间的语义相似度计算

利用向量空间模型(vector space model,VSM),也就是单词向量空间模型(word vector space model)。

基本想法:用一个向量表示文本的“语义”,向量的每一维对应一个单词,其数值为该单词在该文本中出现的频数或权值

基本假设: 文本中所有单词的出现情况表示了文本的语义内容;

文本集合中的每个文本都表示为一个向量,存在于一个向量空间;

向量空间的度量,如内积或标准化内积表示文本之间的“语义相似度”。

image.png

  • 单词文本矩阵是稀疏矩阵,元素为频数或权值
  • 权值:常用单词频率-逆文本频率(term frequency-inverse document frequency,TF-IDF)表示,其定义是

image.png

优点

  • 是模型简单,计算效率高。因为单词向量通常是稀疏的,两个向量的内积计算只需要在其同不为零的维度上进行即可,需要的计算很少,可以高效地完成

缺点

  • 内积相似度未必能够准确表达两个文本的语义相似度上
  • 因为自然语言的单词具有一词多义性(polysemy)及多词一义性(synonymy),所以基于单词向量的相似度计算存在不精确的问题

话题向量空间

话题向量空间模型:

  • 给定一个文本,用话题空间的一个向量表示该文本,该向量的每一分量对应一个话题,其数值为该话题在该文本中出现的权值

  • 用两个向量的内积或标准化内积表示对应的两个文本的语义相似度

  • 注意话题的个数通常远远小于单词的个数,话题向量空间模型更加抽象

  • 潜在语义分析正是构建话题向量空间的方法(即话题分析的方法)

  • 单词向量空间模型与话题向量空间模型互为补充,两者可以同时使用

image.png

image.png

潜在语义分析算法

对单词-文本矩阵进行奇异值分解,将其左矩阵作为话题向量空间,将其对角矩阵与右矩阵的乘积作为文本在话题向量空间的表示。

image.png

例子

image.png

image.png

image.png

非负矩阵分解算法

对单词-文本矩阵进行非负矩阵分解,将其左矩阵作为话题向量空间,将其右矩阵作为在话题向量空间的表示。注意通常单词-文本矩阵是非负的。

image.png

参考文章(32条消息) 潜在语义分析(Latent Semantic Analysis,LSA)_Michael阿明的博客-CSDN博客