使用 spaCy 库进行文本预处理

117 阅读1分钟

spaCy 是一个高效的 NLP 库,旨在让您在实践中使用最先进的技术。它包括词汇化、分词、词性标注、命名实体识别等功能.

1. 安装 spaCy 库

pip install spacy

2. 下载预训练模型

spaCy 依赖于预训练的统计模型来执行各种 NLP 任务。要下载日语模型,请运行以下命令

python -m spacy download ja_core_news_sm

更多模型:spacy.io/models

3. 加载模型

词汇化是将文本分解为单词、短语、符号或其他有意义的元素的过程,在 spaCy 中,只需将文本传递给加载的 NLP 模型即可完成此操作。

import spacy

# 加载日文模型
nlp = spacy.load('ja_core_news_sm')

japanese_sentences = []

for s in japanese:
    s = s.strip()
    if s == '':
        continue
    s = removePunctuation(s)
    sl = s.split('。')
    if sl != '':
        for si in sl:
            if si != '':
                print(f"正在处理句子: {si}")
                try:
                    doc = nlp(si.strip())
                    tokenized_sentence = [token.text for token in doc]
                    print(f"分词结果: {tokenized_sentence}")
                    japanese_sentences.append(tokenized_sentence)
                except Exception as e:
                    print(f"处理句子时出错: {si}")
                    print(e)
print(japanese_sentences[:5])

企业微信截图_0c8151b7-c868-42f5-a04f-1320cbc3e4b8.png