他加禄语自然语言处理工具包calamanCy发布

73 阅读1分钟

calamanCy:他加禄语自然语言处理工具包

摘要

calamanCy是一个用于构建他加禄语自然语言处理(NLP)流程的开源工具包。该工具包基于spaCy构建,支持与其他框架的轻松实验和集成。calamanCy通过提供一致的API来构建NLP应用程序,并提供通用多任务模型,开箱即用地支持依赖解析、词性标注(POS)和命名实体识别(NER)。该工具包旨在通过统一框架整合分散资源,加速他加禄语NLP的发展。

技术特性

  • 统一框架:整合他加禄语NLP分散资源
  • 多任务模型:提供预训练的依赖解析、词性标注和命名实体识别功能
  • API一致性:提供稳定的应用程序开发接口
  • 框架集成:支持与现有NLP框架的无缝集成

可用性

calamanCy工具包已在GitHub平台开源提供。该研究将被发表在EMNLP 2023的第三届NLP-OSS研讨会上。

技术基础

工具包基于spaCy架构构建,充分利用其成熟的NLP处理管道和组件化设计理念,为他加禄语NLP研究提供标准化解决方案。