简单介绍一下主题模型LDA

LDA(Latent Dirichlet allocation)潜在狄立克雷分配模型,它是将文档集中每篇文档的主题按照概率分布的形式给出,是一种典型的概率生成性模型,能够发现语料库中潜在的主题信息,因此也称为LDA主题模型。它是一种无监督学习,可以应用于推荐系统之中,其优点在于无需手工标注训练集,仅仅需要的是文档集和指定主题的数量。其中,对于每个主题只需找出一些词语代替即可。

LDA主题模型是一个包含词汇、主题(隐变量)、文档的三层结构,把文档集中的文档看做是多个主题信息的混合分布,每个主题看做是对应预料库中所有词汇上的混合分布。

LDA(Latent Dirichlet Allocation)是一种文档主题生成模型。LDA的作用是判断两个文档的相似度,传统的方法使用词共现来判断,例如TF-IDF等,但这种方法未考虑文档的语义结构。LDA模型根据文档中的主题分布来判断文档的相似度。给定一个文档,首先分析出文档中包含哪些主题,然后判断不同文档中各个主题出现的概率大小。
可以用生成模型来看文档和主题这两件事。所谓生成模型,我们认为一篇文章的每个词都是通过“文档以一定概率选择了某个主题,然后从这个主题中以一定概率选择某个词语”这样一个过程得到的。也就是说,每篇文档先生成主题,根据主题再生成词语。

标签: lda、面试
  • 回复
隐藏