word2vec

48 阅读1分钟

词袋模型缺点

高维稀疏矩阵

无法表达不同词之间的语义相似性

语言模型

用一个词的周边的其他词来表示该词

语言模型:判断一句话出现的概率=>简化成词出现的概率

image.png 首次提出将一个词映射为一个固定大小的向量化表示,并且参与神经网络的训练

word2vec

Word2vec就是使用周边词可以表示(预测)中心词这种思想,将每个词映射为向量表示并且参与神经网络训练。经过多轮训练之后,最后的每个向量表示可以每个词的语义信息

  • Hierarchical Softmax
  • Negative Sampling

这是两种CBOW、Skip-gram实现的具体方式。

image.png