词袋法(BOW/TF)\词集法(SOW)
不考虑文本的语法和语序,只考虑单词存在的次数(BOW/TF)或者是否存在(SOW)
TF-IDF
既考虑文本的词频,也考虑文件的逆文档频率(基本思想是:单词的重要性与单词在文档中出现的次数成正比,与单词在语料库中出现的次数成反比)
OneHotEncoder
Word2Vec (通过对文档中的所有单词进行分析->>获得单词之间的关联程度->>进而形成词向量矩阵)
浙公网安备 33010602006230号
浙ICP备14015892号