读取csv文件并使用word2vec对中文文本向量化处理

166 阅读1分钟

假设我们有一个名为 data.csv 的 CSV 文件

import pandas as pd
from gensim.models import Word2Vec
from jieba import cut # 请确保已安装 jieba 分词库

# 读取 CSV 文件并加载数据
df = pd.read_csv('data.csv')

# 将文本数据处理成用空格分隔的字符串格式
sentences = df['text'].apply(lambda x: ' '.join(cut(x))).tolist()

# 切分词汇列表
tokenized_sentences = [sentence.split() for sentence in sentences]

# 使用 Word2Vec 模型对文本进行向量化处理
model = Word2Vec(sentences=tokenized_sentences, vector_size=100, window=5, min_count=1, workers=4)

# 获取某个词的向量
word_vector = model.wv['喜欢']

# 查找与某个词最相似的词
similar_words = model.wv.most_similar('喜欢')

# 查找与多个词最相似的词
similar_words_list = model.wv.most_similar(['喜欢', '电影'])

# 保存模型
model.save('word2vec_model.bin')

# 加载已保存的模型
loaded_model = Word2Vec.load('word2vec_model.bin'