spaCy v3.5新增模糊匹配与CLI命令

3 阅读2分钟

Introducing spaCy v3.5 · Explosion
发布时间:2023年1月30日(3分钟阅读)
分类:博客 / spaCy / 基于规则的匹配 / 实体链接

spaCy自然语言处理库发布v3.5版本。该版本引入了三个新的CLI命令、增加了模糊匹配功能、改进了实体链接功能,并包含一系列语言更新和错误修复。

新CLI命令

  • apply:将一个流水线应用到一或多个 .txt.jsonl.spacy 文件
  • benchmark speed:通过预热和置信区间分析流水线的处理速度
  • find-threshold:测试 spancattextcat_multilabel 等组件的阈值范围,以找到最优值

这些命令的使用示例详见CLI文档和v3.5使用说明。

模糊匹配

新增 FUZZY 操作符,允许基于莱文斯坦编辑距离进行模糊匹配:

pattern = [{"LOWER": {"FUZZY": "definitely"}}]

FUZZYREGEX 操作符现在也支持用于列表的 INNOT_IN

pattern = [{"TEXT": {"REGEX": {"NOT_IN": ["^awe(some)?$", "^wonder(ful)?"]}}}]

实体链接

实体链接器的知识库已重构以简化定制。KnowledgeBase 现在是一个抽象类,默认实现为新的 InMemoryLookupKB 类。

更多改进、更新和错误修复详见:v3.5使用说明 / v3.5.0发布说明。

spaCy宇宙与项目新增内容

自v3.4以来,spaCy宇宙和spaCy项目中添加了许多新插件、扩展、流水线和教程:

  • BERTopic:利用BERT和c-TF-IDF创建易于解释的主题
  • concepCy:多语言知识图谱
  • greCy:用于spaCy的训练好的古希腊语模型
  • English Interpretation Sentence Pattern:英语到日语的精准翻译
  • spaCy - Partial Tagger:用于部分标注数据集的序列标注器
  • spacy-cleaner:使用spaCy轻松清洗文本
  • spaCy-PyThaiNLP:增加泰语支持
  • Speedster pipeline acceleration:使用Speedster加速命名实体识别(WikiNER)
  • Zshot:零样本和少样本命名实体与关系识别

此外,spaCy团队为两个较新的组件添加了演示项目:

  • experimental/coref:使用OntoNotes训练共指消解模型
  • pipelines/spancat_demo:最小化的spancat演示项目

资源

  • spaCy v3.5: 新特性概览
  • 发布说明:详细概述
  • spaCy模型目录:下载训练好的流水线
  • spaCy宇宙:项目、插件和扩展
  • spaCy项目模板:端到端NLP工作流
  • 视频教程:YouTube上的深度spaCy内容FINISHED