将文字编码的方式有很多种,其中onehot编码方式最为简单。但是这种简单也伴随着很多问题。其一就是随着单词的增加,onehot编码的维度也必须要增加,最终导致维度灾难。另外一个不可避免的问题就是,onehot编码是相互正交的编码,单词与单词之间语义关系也没有被表示出来。
今天给大家介绍一下word2vec方式的编码。 首先说一下它的优点: 1.考虑上下文 2.比之前的 Embedding方 法维度更少,所以速度更快 3.通用性很强,可以用在各种 NLP 任务中
Word2vec 的 2 种训练模式 CBOW(Continuous Bag-of-Words Model)和Skip-gram (Continuous Skip-gram Model),是Word2vec 的两种训练模式。下面简单做一下解释:
CBOW
通过上下文来预测当前值。相当于一句话中扣掉一个词,让你猜这个词是什么。
Skip-gram
用当前词来预测上下文。相当于给你一个词,让你猜前面和后面可能出现什么词。