Introducing spaCy v3.6
2023年7月7日 | 阅读时间约3分钟
我们很高兴发布自然语言处理库 spaCy 的 v3.6 版本。spaCy v3.6 将 span finder(跨度查找器)组件添加到了核心库中,并为斯洛文尼亚语引入了训练管道。
SpanFinder 组件
SpanFinder 组件通过识别跨度起始和结束的标记,来识别潜在的重叠、未标记的文本跨度。它旨在与像 SpanCategorizer(跨度分类器)这样的组件结合使用,后者可以进一步筛选或标注这些跨度。关于跨度查找器设计的更详细介绍,请参阅相关的博客文章。
要训练一个包含 span_finder 和 spancat 的管道,需将 span_finder(及其所需的 tok2vec 或 transformer)添加到 [training.annotating_components] 配置中,以便 spancat 组件能够直接根据其预测结果进行训练:
[nlp]
pipeline = ["tok2vec","span_finder","spancat"]
[training]
annotating_components = ["tok2vec","span_finder"]
语言更新
- 对马来语的初步支持。
- 对拉丁语名词组块及其他功能的更新。
了解更多关于所有改进、更新和错误修复的详细信息:
- v3.6 使用说明
- v3.6.0 版本发布说明
训练管道
新训练管道
v3.6 为斯洛文尼亚语引入了新的训练管道,这些管道使用了可训练的词汇还原器和 floret 向量。
| 包名 | UPOS | Parser LAS | NER F1 |
|---|---|---|---|
sl_core_news_sm | 96.9 | 82.1 | 62.9 |
sl_core_news_md | 97.6 | 84.3 | 73.5 |
sl_core_news_lg | 97.7 | 84.3 | 79.0 |
sl_core_news_trf | 99.0 | 91.7 | 90.0 |
特别感谢 Luka Dragar 对新管道提供的帮助!
管道更新
英语管道已更新,改进了对各种撇号缩写的处理,并将 "get" 作为被动助动词进行了词汇还原。
spaCy 生态的新成员
自 v3.5 版本以来,许多很酷的新插件、扩展和管道已被添加到 spaCy 生态系统中:
- LatinCy:用于拉丁语 NLP 的合成训练 spaCy 管道。
- parsigs:使用 spaCy 简化处方文本的结构化。
- Sentimental Onix:使用 onnx 处理情感模型。
- spaCysee:可视化 spaCy 的依存句法分析、词性标注和形态分析。
- spaCy-SetFit:一种将 SetFit 与 spaCy 结合使用的简单直观的方法。
- spaCy Visual Studio Code Extension:在 VS Code 中处理 spaCy 的配置文件。
- spacy-wasm:使用 WebAssembly 在浏览器中运行 spaCy。
- SpanMarker:在 spaCy 中轻松实现最先进的命名实体识别。
- Vetiver:对模型进行版本控制、共享、部署和监控。
资源
- spaCy v3.6:v3.6 的新特性
- 发布说明:详细概述
- spaCy 模型目录:下载训练好的管道
- spaCy 生态系统:项目、插件和扩展
- spaCy 项目模板:端到端 NLP 工作流
- 视频教程:YouTube 上更深入的 spaCy 内容