单词嵌入是使用密集的矢量表示来表示单词和文档的一类方法。
词嵌入是对传统的词袋模型编码方案的改进,传统方法使用大而稀疏的矢量来表示每个单词或者在矢量内对每个单词进行评分以表示整个词汇表,这些表示是稀疏的,因为每个词汇的表示是巨大的,给定的词或文档主要由零值组成的大向量表示。
相反,在嵌入中,单词由密集向量表示,其中向量表示将单词投影到连续向量空间中。
向量空间中的单词的位置是从文本中学习的,并且基于在使用单词时围绕单词的单词。
学习到的向量空间中的单词的位置被称为它的嵌入:Embedding。
从文本学习单词嵌入方法的两个流行例子包括: