spaCy自然语言处理库v3.5版本发布

用户576110558132

2026-01-13 7 阅读2分钟

引入spaCy v3.5

我们很高兴发布spaCy自然语言处理库的v3.5版本。spaCy v3.5引入了三个新的CLI命令，增加了模糊匹配功能，改进了实体链接功能，并包含一系列语言更新和错误修复。

新的CLI命令

apply：将处理流程应用到一个或多个.txt、.jsonl或.spacy文件。
benchmark speed：通过预热和置信区间分析处理流程的速度性能。
find-threshold：为spancat、textcat_multilabel等组件测试一系列阈值，以确定最佳值。

关于如何运行这些命令的示例可以在我们的CLI文档以及v3.5使用说明中找到。

模糊匹配

新的FUZZY操作符允许基于莱文斯坦编辑距离进行模糊匹配：

pattern = [{"LOWER": {"FUZZY": "definitely"}}]

FUZZY和REGEX操作符现在也支持用于带有IN和NOT_IN的列表：

pattern = [{"TEXT": {"REGEX": {"NOT_IN": ["^awe(some)?$", "^wonder(ful)?"]}}}]

实体链接

实体链接器的知识库已重构，以便于自定义。KnowledgeBase现在是一个抽象类，默认实现是新的InMemoryLookupKB类。

阅读有关所有改进、更新和错误修复的详细信息：

v3.5 使用说明
v3.5.0 发布说明

spaCy生态系统和项目的新增内容

自v3.4版本以来，已有许多很酷的新插件、扩展、处理流程和教程被添加到spaCy生态系统和spaCy项目中：

BERTopic：利用BERT和c-TF-IDF创建易于解释的主题。
concepCy：spaCy中的多语言知识图谱。
greCy：经过训练的古希腊语模型，供spaCy使用。
English Interpretation Sentence Pattern：用于从英语到日语准确翻译的英语解释。
spaCy - Partial Tagger：用于部分标注数据集的序列标注器。
spacy-cleaner：使用spaCy轻松清理文本。
spaCy-PyThaiNLP：为spaCy添加泰语支持。
Speedster pipeline acceleration：使用Speedster加速的命名实体识别（WikiNER）。
Zshot：零样本和少样本命名实体及关系识别。

查看spaCy生态系统

此外，spaCy团队为两个新组件添加了演示项目：

experimental/coref：使用新的实验性指代消解组件，利用OntoNotes训练指代消解模型。
pipelines/spancat_demo：一个最小的spancat演示项目。

资源

spaCy v3.5: 了解v3.5的新特性
发布说明: 详细概述
spaCy模型目录: 下载训练好的处理流程
spaCy生态系统: 项目、插件和扩展
spaCy项目模板: 端到端NLP工作流
视频教程: YouTube上更深入的spaCy内容