引入spaCy v3.5
我们很高兴发布spaCy自然语言处理库的v3.5版本。spaCy v3.5引入了三个新的CLI命令,增加了模糊匹配功能,改进了实体链接功能,并包含一系列语言更新和错误修复。
新的CLI命令
- apply:将处理流程应用到一个或多个
.txt、.jsonl或.spacy文件。 - benchmark speed:通过预热和置信区间分析处理流程的速度性能。
- find-threshold:为
spancat、textcat_multilabel等组件测试一系列阈值,以确定最佳值。
关于如何运行这些命令的示例可以在我们的CLI文档以及v3.5使用说明中找到。
模糊匹配
新的FUZZY操作符允许基于莱文斯坦编辑距离进行模糊匹配:
pattern = [{"LOWER": {"FUZZY": "definitely"}}]
FUZZY和REGEX操作符现在也支持用于带有IN和NOT_IN的列表:
pattern = [{"TEXT": {"REGEX": {"NOT_IN": ["^awe(some)?$", "^wonder(ful)?"]}}}]
实体链接
实体链接器的知识库已重构,以便于自定义。KnowledgeBase现在是一个抽象类,默认实现是新的InMemoryLookupKB类。
阅读有关所有改进、更新和错误修复的详细信息:
- v3.5 使用说明
- v3.5.0 发布说明
spaCy生态系统和项目的新增内容
自v3.4版本以来,已有许多很酷的新插件、扩展、处理流程和教程被添加到spaCy生态系统和spaCy项目中:
- BERTopic:利用BERT和c-TF-IDF创建易于解释的主题。
- concepCy:spaCy中的多语言知识图谱。
- greCy:经过训练的古希腊语模型,供spaCy使用。
- English Interpretation Sentence Pattern:用于从英语到日语准确翻译的英语解释。
- spaCy - Partial Tagger:用于部分标注数据集的序列标注器。
- spacy-cleaner:使用spaCy轻松清理文本。
- spaCy-PyThaiNLP:为spaCy添加泰语支持。
- Speedster pipeline acceleration:使用Speedster加速的命名实体识别(WikiNER)。
- Zshot:零样本和少样本命名实体及关系识别。
查看spaCy生态系统
此外,spaCy团队为两个新组件添加了演示项目:
- experimental/coref:使用新的实验性指代消解组件,利用OntoNotes训练指代消解模型。
- pipelines/spancat_demo:一个最小的spancat演示项目。
资源
- spaCy v3.5: 了解v3.5的新特性
- 发布说明: 详细概述
- spaCy模型目录: 下载训练好的处理流程
- spaCy生态系统: 项目、插件和扩展
- spaCy项目模板: 端到端NLP工作流
- 视频教程: YouTube上更深入的spaCy内容