常用的文本数据处理方式

      词袋法(BOW/TF)\词集法(SOW)

不考虑文本的语法和语序,只考虑单词存在的次数(BOW/TF)或者是否存在(SOW)

TF-IDF

既考虑文本的词频,也考虑文件的逆文档频率(基本思想是:单词的重要性与单词在文档中出现的次数成正比,与单词在语料库中出现的次数成反比)

OneHotEncoder

Word2Vec (通过对文档中的所有单词进行分析->>获得单词之间的关联程度->>进而形成词向量矩阵)

标签: 单词、sow、tf、bow、词集法、面试
猜你感兴趣的圈子:
蕾啦啦啦蕾
  • 回复
隐藏