假设我们有一个名为 data.csv 的 CSV 文件
import pandas as pd
from gensim.models import Word2Vec
from jieba import cut # 请确保已安装 jieba 分词库
# 读取 CSV 文件并加载数据
df = pd.read_csv('data.csv')
# 将文本数据处理成用空格分隔的字符串格式
sentences = df['text'].apply(lambda x: ' '.join(cut(x))).tolist()
# 切分词汇列表
tokenized_sentences = [sentence.split() for sentence in sentences]
# 使用 Word2Vec 模型对文本进行向量化处理
model = Word2Vec(sentences=tokenized_sentences, vector_size=100, window=5, min_count=1, workers=4)
# 获取某个词的向量
word_vector = model.wv['喜欢']
# 查找与某个词最相似的词
similar_words = model.wv.most_similar('喜欢')
# 查找与多个词最相似的词
similar_words_list = model.wv.most_similar(['喜欢', '电影'])
# 保存模型
model.save('word2vec_model.bin')
# 加载已保存的模型
loaded_model = Word2Vec.load('word2vec_model.bin'