word2vec对语料的读取

120 阅读1分钟

Word2Vec 是一种著名的 词嵌入(Word Embedding) 方法,它可以计算每个单词在其给定语料库环境下的 分布式词向量(Distributed Representation,亦直接被称为词向量)。词向量表示可以在一定程度上刻画每个单词的语义。

读取语料

  • class gensim.models.word2vec.BrownCorpus(dirname ) 从布朗语料库(NLTK数据的一部分)迭代句子,dirname是存储布朗语料库的根目录(通过nltk.download()下载布朗语料库),得到的这个对象可以通过循环迭代语料库的句子。
  • class gensim.models.word2vec.LineSentence(source, max_sentence_length=10000, limit=None) 与上一样,也是产生迭代器,但需要更改下文件格式。简单的格式:一篇文档=一行; 单词已经过预处理并由空格分隔。
  • class gensim.models.word2vec.PathLineSentences(source,max_sentence_length = 10000,limit = None ) 与LineSentence类一样,不过这里是处理根目录下的所有文件,同样文件中句子格式需要处理
  • class gensim.models.word2vec.Text8Corpus(fname,max_sentence_length = 10000 ) 从text8语料库中迭代句子