潜在狄利克雷分配(latent Dirichlet allocation,LDA)

465 阅读1分钟

LDA主题模型简介

LDA主题模型主要用于推测文档的主题分布,可以将文档集中每篇文档的主题以概率分布的形式给出,根据主题进行聚类或文本分类。

LDA主题模型不关心文档中单词的顺序,通常使用词袋特征来代表文档。

LDA模型认为主题可以由一个词汇分布来表示,而文章可以由主题分布来表示

比如有两个主题,美食和美妆。LDA说两个主题可以由词汇分布表示,他们分别是:

{面包:0.4,火锅:0.5,眉笔:0.03,腮红:0.07}

{眉笔:0.4,腮红:0.5,面包:0.03,火锅:0.07}

同样,对于两篇文章,LDA认为文章可以由主题分布这么表示:

《美妆日记》{美妆:0.8,美食:0.1,其他:0.1}

《美食探索》{美食:0.8,美妆:0.1,其他:0.1} 所以想要生成一篇文章,可以先以一定的概率选取上述某个主题,再以一定的概率选取那个主题下的某个单词,不断重复这两步就可以生成最终文章。

在LDA模型中,一篇文档生成的方式如下:

image.png

其中,类似Beta分布是二项式分布的共轭先验概率分布,而狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布。

image.png

image.png

详细案例可参考:(41条消息) LDA主题模型简介及Python实现_阿丢是丢心心的博客-CSDN博客