spaCy 是一个高效的 NLP 库,旨在让您在实践中使用最先进的技术。它包括词汇化、分词、词性标注、命名实体识别等功能.
1. 安装 spaCy 库
pip install spacy
2. 下载预训练模型
spaCy 依赖于预训练的统计模型来执行各种 NLP 任务。要下载日语模型,请运行以下命令
python -m spacy download ja_core_news_sm
更多模型:spacy.io/models
3. 加载模型
词汇化是将文本分解为单词、短语、符号或其他有意义的元素的过程,在 spaCy 中,只需将文本传递给加载的 NLP 模型即可完成此操作。
import spacy
# 加载日文模型
nlp = spacy.load('ja_core_news_sm')
japanese_sentences = []
for s in japanese:
s = s.strip()
if s == '':
continue
s = removePunctuation(s)
sl = s.split('。')
if sl != '':
for si in sl:
if si != '':
print(f"正在处理句子: {si}")
try:
doc = nlp(si.strip())
tokenized_sentence = [token.text for token in doc]
print(f"分词结果: {tokenized_sentence}")
japanese_sentences.append(tokenized_sentence)
except Exception as e:
print(f"处理句子时出错: {si}")
print(e)
print(japanese_sentences[:5])