本质上,N-gram对词的表示是one-hot的离散表示,存在问题:
1.参数空间随着N成指数增长,当词典数量较大时存在维度灾难问题;
2.无法理解词与词之间的内在联系,无法建模出多个相似词的关系。
通过引入词向量,从离散表示到连续表示,可以解决上面的问题:
1. one-hot向量维度大小与词典成正比,稠密向量大小是固定值(50~300);
2. 稠密向量各维度值是实数,不限于0和1,可以表示连续空间,可以通过计算距离度量词与词之间的相似度。类似的思想还有IR中的向量空间模型(VSM)。
作者:EternalX
链接:
www.jianshu.com/p/22d35745c…來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。