自然语言处理库spaCy v3.6发布,新增跨度查找器与斯洛文尼亚语支持

3 阅读2分钟

Introducing spaCy v3.6

2023年7月7日 | 阅读时间约3分钟

我们很高兴发布自然语言处理库 spaCy 的 v3.6 版本。spaCy v3.6 将 span finder(跨度查找器)组件添加到了核心库中,并为斯洛文尼亚语引入了训练管道。

SpanFinder 组件

SpanFinder 组件通过识别跨度起始和结束的标记,来识别潜在的重叠、未标记的文本跨度。它旨在与像 SpanCategorizer(跨度分类器)这样的组件结合使用,后者可以进一步筛选或标注这些跨度。关于跨度查找器设计的更详细介绍,请参阅相关的博客文章。

要训练一个包含 span_finderspancat 的管道,需将 span_finder(及其所需的 tok2vectransformer)添加到 [training.annotating_components] 配置中,以便 spancat 组件能够直接根据其预测结果进行训练:

[nlp]
pipeline = ["tok2vec","span_finder","spancat"]

[training]
annotating_components = ["tok2vec","span_finder"]

语言更新

  • 对马来语的初步支持。
  • 对拉丁语名词组块及其他功能的更新。

了解更多关于所有改进、更新和错误修复的详细信息:

  • v3.6 使用说明
  • v3.6.0 版本发布说明

训练管道

新训练管道

v3.6 为斯洛文尼亚语引入了新的训练管道,这些管道使用了可训练的词汇还原器和 floret 向量。

包名UPOSParser LASNER F1
sl_core_news_sm96.982.162.9
sl_core_news_md97.684.373.5
sl_core_news_lg97.784.379.0
sl_core_news_trf99.091.790.0

特别感谢 Luka Dragar 对新管道提供的帮助!

管道更新

英语管道已更新,改进了对各种撇号缩写的处理,并将 "get" 作为被动助动词进行了词汇还原。

spaCy 生态的新成员

自 v3.5 版本以来,许多很酷的新插件、扩展和管道已被添加到 spaCy 生态系统中:

  • LatinCy:用于拉丁语 NLP 的合成训练 spaCy 管道。
  • parsigs:使用 spaCy 简化处方文本的结构化。
  • Sentimental Onix:使用 onnx 处理情感模型。
  • spaCysee:可视化 spaCy 的依存句法分析、词性标注和形态分析。
  • spaCy-SetFit:一种将 SetFit 与 spaCy 结合使用的简单直观的方法。
  • spaCy Visual Studio Code Extension:在 VS Code 中处理 spaCy 的配置文件。
  • spacy-wasm:使用 WebAssembly 在浏览器中运行 spaCy。
  • SpanMarker:在 spaCy 中轻松实现最先进的命名实体识别。
  • Vetiver:对模型进行版本控制、共享、部署和监控。

查看 spaCy 生态系统

资源

  • spaCy v3.6:v3.6 的新特性
  • 发布说明:详细概述
  • spaCy 模型目录:下载训练好的管道
  • spaCy 生态系统:项目、插件和扩展
  • spaCy 项目模板:端到端 NLP 工作流
  • 视频教程:YouTube 上更深入的 spaCy 内容