spaCy v3.3 发布：性能提升与新训练管道详解本文详细介绍了spaCy自然语言处理库v3.3版本的更新内容，包括核

介绍 spaCy v3.3

spaCy v3.3 是 spaCy 自然语言处理库的一个新版本。此版本提升了几乎所有统计管道组件的速度，增加了一个可训练的词形还原器，并包含针对芬兰语、韩语和瑞典语的新训练管道。

spaCy v3.3 包含一系列速度改进，提升了所有核心管道组件在训练和推理阶段的速度。对于长文本，训练管道的预测速度提升了15%或更多。针对 en_core_web_md 的详细基准测试显示了 spaCy v3.2 与 v3.3 的速度对比：

速度基准：en_core_web_md

CPU	平均词数/文档	v3.2 词/秒	v3.3 词/秒	差异
Intel Xeon W-2265	100	17292	17441	0.86%
	1000	15408	16024	4.00%
	10000	12798	15346	19.91%
Apple M1	100	18272	18408	0.74%
	1000	18794	19248	2.42%
	10000	15144	17513	15.64%

新的可训练词形还原器组件使用编辑树将词元转换为其词元原形。可以通过训练快速入门尝试使用可训练词形还原器！

displaCy 现在支持来自 Doc.spans 的重叠跨度标注。

v3.3 引入了针对芬兰语、韩语和瑞典语的新的 CPU/CNN 管道，这些管道使用了新的可训练词形还原器和 floret 向量。由于使用了 Bloom 嵌入和子词，这些管道具有紧凑的向量且不存在词汇表外词。

包名	语言	UPOS	解析器 LAS	NER F1
`fi_core_news_sm`	芬兰语	92.5	71.9	75.9
`fi_core_news_md`	芬兰语	95.9	78.6	80.6
`fi_core_news_lg`	芬兰语	96.2	79.4	82.4
`ko_core_news_sm`	韩语	86.1	65.6	71.3
`ko_core_news_md`	韩语	94.7	80.9	83.1
`ko_core_news_lg`	韩语	94.7	81.3	85.3
`sv_core_news_sm`	瑞典语	95.0	75.9	74.7
`sv_core_news_md`	瑞典语	96.3	78.5	79.3
`sv_core_news_lg`	瑞典语	96.3	79.1	81.1

特别感谢 Antti Ajanki, Tuomo Hiippala (芬兰语) 和 Elena Fano (瑞典语) 对新管道的贡献和帮助！

以下语言训练管道中的词形还原器已从基于查找或规则的词形还原器切换为新的可训练词形还原器：

词形还原器准确率（md 管道）

自 v3.2 以来，许多很酷的新插件、扩展、管道和教程被添加到了 spaCy 生态中：