使用word2vec训练中文词向量

779 阅读1分钟
通常我们文本处理流程如下:
  • 1 对文本数据进行预处理:数据预处理,包括简繁体转换,去除xml符号,将单词条内容处理成单行数据,word2vec训练原理是基于词共现来训练词之间的语义联系的。不同词条内容需分开训练
  • 2 中文分词:中文NLP很重要的一步就是分词了,分词的好坏很大程度影响到后续的模型训练效果
  • 3 特征处理:也叫词向量编码,将文本数据转换成计算机能识别的数据,便于计算,通常是转换成数值型数据,常用的编码方式有one hot编码(BOW词袋模型离散表示方式,另外文章我们讲解TF-IDF模型时候会介绍)和基于word2vec等深度学习模型训练得到的低维稠密向量,通常称为word embedding的Distributed representation
  • 4 机器学习:词向量进行编码之后,便可以将文本数据转换成数值数据,输入到我们的机器学习模型进行计算训练了

作者:sudop
链接:https://www.jianshu.com/p/87798bccee48
來源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。


注:训练词向量,将文本转化为数值型,即可进行下一步的机器模型训练,比如判断文本相似度等。因此词向量训练相当于一个预处理过程。这么久终于明白一些了。


(掘金最近略抽风,又抑制不住自己搭博客的心情了哈哈哈)