训练word2vec语义向量训练word2vec语义向量 sentence(iterable of iterables)

训练word2vec语义向量

class gensim.models.word2vec.Word2Vec(sentences=None, size=100, alpha=0.025, window=5, min_count=5,  
                   max_vocab_size=None, sample=1e-3, seed=1, workers=3, min_alpha=0.0001,  
                     sg=0, hs=0, negative=5, ns_exponent=0.75, cbow_mean=1, hashfxn=hash, iter=5,                       null_word=0,trim_rule=None, sorted_vocab=1, batch_words=MAX_WORDS_IN_BATCH, 
                    compute_loss=False, callbacks=(),  
                   max_final_vocab=None)

sentence(iterable of iterables):可迭代的句子可以是简单的list，但对于较大的语料库，可以考虑直接从磁盘/网络传输句子的迭代。见BrownCorpus，Text8Corpus 或LineSentence.
SG(INT {1 ，0}) -定义的训练算法。如果是1，则使用skip-gram; 否则，使用CBOW。
hs：是否采用基于Hierarchical Softmax的模型。参数为1表示使用，0表示不使用
size(int) - 特征向量的维数。
window(int) - 句子中当前词和预测词之间的最大距离。
min_count(int) - 忽略总频率低于此值的所有单词。

保存模型

model.save(file_name)

file_name:存储模型的名称

加载模型

word2vec.Word2Vec.load(file_name)

file_name:存储的模型的名称