常见的Word Embbeding技术有哪些

文本表示方法有以下几类:

  • 基于one-hot、tf-idf、textrank等的bag-of-words;
  • 主题模型:LSA(SVD)、pLSA、LDA;
  • 基于词向量的固定表征:word2vec、fastText、glove
  • 基于词向量的动态表征:elmo、GPT、bert

各种词向量的特点:

  • One-hot:维度灾难 and 语义鸿沟
  • 矩阵分解(LSA):利用全局语料特征,但SVD求解计算复杂度大
  • 基于NNLM/RNNLM的词向量:词向量为副产物,存在效率不高等问题
  • word2vec、fastText:优化效率高,但是基于局部语料
  • glove:基于全局预料,结合了LSA和word2vec的优点
  • elmo、GPT、bert:动态特征

相关资料

Word2vec

论文

Glove

论文地址

Glove详解

lsa

拓展阅读:

史上最全词向量讲解(LSA/word2vec/Glove/FastText/ELMo/BERT)

标签: glove、lsa、word2vec、向量、elmo、面试
  • 回复
隐藏