Introducing spaCy v3.5 · Explosion
发布时间:2023年1月30日(3分钟阅读)
分类:博客 / spaCy / 基于规则的匹配 / 实体链接
spaCy自然语言处理库发布v3.5版本。该版本引入了三个新的CLI命令、增加了模糊匹配功能、改进了实体链接功能,并包含一系列语言更新和错误修复。
新CLI命令
- apply:将一个流水线应用到一或多个
.txt、.jsonl或.spacy文件 - benchmark speed:通过预热和置信区间分析流水线的处理速度
- find-threshold:测试
spancat、textcat_multilabel等组件的阈值范围,以找到最优值
这些命令的使用示例详见CLI文档和v3.5使用说明。
模糊匹配
新增 FUZZY 操作符,允许基于莱文斯坦编辑距离进行模糊匹配:
pattern = [{"LOWER": {"FUZZY": "definitely"}}]
FUZZY 和 REGEX 操作符现在也支持用于列表的 IN 和 NOT_IN:
pattern = [{"TEXT": {"REGEX": {"NOT_IN": ["^awe(some)?$", "^wonder(ful)?"]}}}]
实体链接
实体链接器的知识库已重构以简化定制。KnowledgeBase 现在是一个抽象类,默认实现为新的 InMemoryLookupKB 类。
更多改进、更新和错误修复详见:v3.5使用说明 / v3.5.0发布说明。
spaCy宇宙与项目新增内容
自v3.4以来,spaCy宇宙和spaCy项目中添加了许多新插件、扩展、流水线和教程:
- BERTopic:利用BERT和c-TF-IDF创建易于解释的主题
- concepCy:多语言知识图谱
- greCy:用于spaCy的训练好的古希腊语模型
- English Interpretation Sentence Pattern:英语到日语的精准翻译
- spaCy - Partial Tagger:用于部分标注数据集的序列标注器
- spacy-cleaner:使用spaCy轻松清洗文本
- spaCy-PyThaiNLP:增加泰语支持
- Speedster pipeline acceleration:使用Speedster加速命名实体识别(WikiNER)
- Zshot:零样本和少样本命名实体与关系识别
此外,spaCy团队为两个较新的组件添加了演示项目:
- experimental/coref:使用OntoNotes训练共指消解模型
- pipelines/spancat_demo:最小化的
spancat演示项目
资源
- spaCy v3.5: 新特性概览
- 发布说明:详细概述
- spaCy模型目录:下载训练好的流水线
- spaCy宇宙:项目、插件和扩展
- spaCy项目模板:端到端NLP工作流
- 视频教程:YouTube上的深度spaCy内容FINISHED