无监督关键词提取方法主要有三类:
基于统计特征的关键词提取(TF,TF-IDF);参考=》
基于词图模型的关键词提取(PageRank,TextRank);参考=》
基于主题模型的关键词提取(LDA)
-
基于统计特征的关键词提取算法的思想是利用文档中词语的统计信息抽取文档的关键词;
-
基于词图模型的关键词提取首先要构建文档的语言网络图,然后对语言进行网络图分析,在这个图上寻找具有重要作用的词或者短语,这些短语就是文档的关键词;
-
基于主题关键词提取算法主要利用的是主题模型中关于主题分布的性质进行关键词提取;