实际应用里如何设置的词向量的维度大小

608 阅读1分钟

这个应该要看你实际的应用场景,维度代表了词语的特征,特征越多能够更准确的将词与词区分,就好像一个人特征越多越容易与他人区分开来。但是在实际应用中维度太多训练出来的模型会越大,虽然维度越多能够更好区分,但是词与词之间的关系也就会被淡化,这与我们训练词向量的目的是相反的,我们训练词向量是希望能够通过统计来找出词与词之间的联系,维度太高了会淡化词之间的关系,但是维度太低了又不能将词区分,所以词向量的维度选择依赖于你的实际应用场景,这样才能继续后面的工作。一般说来 200-400 维是比较常见的。比较大的语料 dim 在 300-500 ,比如 Wikipedia 、百度百科全词条,效果会比较好;特定领域的语料可以低一些维度 200-300 。