文本表示方法有以下几类:
-
基于one-hot、tf-idf、textrank等的bag-of-words;
-
主题模型:LSA(SVD)、pLSA、LDA;
-
基于词向量的固定表征:word2vec、fastText、glove
-
基于词向量的动态表征:elmo、GPT、bert
各种词向量的特点:
-
One-hot:维度灾难 and 语义鸿沟
-
矩阵分解(LSA):利用全局语料特征,但SVD求解计算复杂度大
-
基于NNLM/RNNLM的词向量:词向量为副产物,存在效率不高等问题
-
word2vec、fastText:优化效率高,但是基于局部语料
-
glove:基于全局预料,结合了LSA和word2vec的优点
-
elmo、GPT、bert:动态特征
相关资料
Word2vec
论文
Glove
论文地址
Glove详解
lsa
拓展阅读:
史上最全词向量讲解(LSA/word2vec/Glove/FastText/ELMo/BERT)
标签: glove、lsa、word2vec、向量、elmo、面试