Spark mllib教程
作者: 时海
TF-IDF
TF-IDF(Term Frequency-Inverse Document Frequency),即:词频-逆文件频率。
是一种统计方法,度量一个词对文档的重要性。当某个词在一个文档中出现的频率越高,
而在其它文档集中出现频率越低,则该词越能表征该文档。
标签: 频率、frequency、idf、tf、文档
一个创业中的苦逼程序员
  • 回复
隐藏