spaCy自然语言处理库v3.5版本发布

7 阅读2分钟

引入spaCy v3.5

我们很高兴发布spaCy自然语言处理库的v3.5版本。spaCy v3.5引入了三个新的CLI命令,增加了模糊匹配功能,改进了实体链接功能,并包含一系列语言更新和错误修复。

新的CLI命令

  • apply:将处理流程应用到一个或多个.txt.jsonl.spacy文件。
  • benchmark speed:通过预热和置信区间分析处理流程的速度性能。
  • find-threshold:为spancattextcat_multilabel等组件测试一系列阈值,以确定最佳值。

关于如何运行这些命令的示例可以在我们的CLI文档以及v3.5使用说明中找到。

模糊匹配

新的FUZZY操作符允许基于莱文斯坦编辑距离进行模糊匹配:

pattern = [{"LOWER": {"FUZZY": "definitely"}}]

FUZZYREGEX操作符现在也支持用于带有INNOT_IN的列表:

pattern = [{"TEXT": {"REGEX": {"NOT_IN": ["^awe(some)?$", "^wonder(ful)?"]}}}]

实体链接

实体链接器的知识库已重构,以便于自定义。KnowledgeBase现在是一个抽象类,默认实现是新的InMemoryLookupKB类。

阅读有关所有改进、更新和错误修复的详细信息:

  • v3.5 使用说明
  • v3.5.0 发布说明

spaCy生态系统和项目的新增内容

自v3.4版本以来,已有许多很酷的新插件、扩展、处理流程和教程被添加到spaCy生态系统spaCy项目中:

  • BERTopic:利用BERT和c-TF-IDF创建易于解释的主题。
  • concepCy:spaCy中的多语言知识图谱。
  • greCy:经过训练的古希腊语模型,供spaCy使用。
  • English Interpretation Sentence Pattern:用于从英语到日语准确翻译的英语解释。
  • spaCy - Partial Tagger:用于部分标注数据集的序列标注器。
  • spacy-cleaner:使用spaCy轻松清理文本。
  • spaCy-PyThaiNLP:为spaCy添加泰语支持。
  • Speedster pipeline acceleration:使用Speedster加速的命名实体识别(WikiNER)。
  • Zshot:零样本和少样本命名实体及关系识别。

查看spaCy生态系统

此外,spaCy团队为两个新组件添加了演示项目:

  • experimental/coref:使用新的实验性指代消解组件,利用OntoNotes训练指代消解模型。
  • pipelines/spancat_demo:一个最小的spancat演示项目。

资源

  • spaCy v3.5: 了解v3.5的新特性
  • 发布说明: 详细概述
  • spaCy模型目录: 下载训练好的处理流程
  • spaCy生态系统: 项目、插件和扩展
  • spaCy项目模板: 端到端NLP工作流
  • 视频教程: YouTube上更深入的spaCy内容