spaCy与多语言NLP的未来

3 阅读3分钟

spaCy与多语言NLP的未来

本文来自某机构在某论坛2019年颁奖典礼上的演讲幻灯片,spaCy在此次活动中获得了某机构的认可印章。

演讲者介绍

  • Matthew Honnibal (联合创始人):2009年获计算机科学博士学位。10年来持续发表关于最先进自然语言理解系统的研究成果。于2014年离开学术界,开始开发spaCy。
  • Ines Montani (联合创始人):程序员和前端开发人员,拥有媒体科学和语言学学位。自spaCy首次发布以来一直参与其开发工作。也是某商业产品的首席开发者。

spaCy发展历程与现状

  • 2015年初:spaCy首次发布。

    • 一个面向工业级自然语言处理的开源库。
    • 专注于生产环境应用。
    • 当前统计数据:全球用户超过10万,GitHub星标超过1.5万,拥有400多位贡献者,以及60多个扩展包。
  • 2016年初:发布德语模型。

    • 当前统计数据:现已支持52种以上语言,并为其中21种语言提供了23个预训练统计模型。
  • 2016年底:成立某机构,一家专注于AI开发者工具的新公司。

    • 最初6个月通过咨询业务实现自给自足。
    • 自2017年起通过软件销售获得资金支持。
    • 团队分布在各地,以柏林为中心。
    • 当前统计数据:团队成员共7人,100%独立且实现盈利
  • 2017年底:发布某商业产品。

    • 首个商业产品。
    • 现代化的标注工具。
    • 完全可通过Python进行脚本化操作。
    • 当前统计数据:拥有超过2500名用户,其中包括250多家公司,论坛成员超过1200人。

多语言NLP的现状:是变得更好还是更糟?

积极趋势

  • 通用依赖项目
    • 汇集了超过100个树库,覆盖70多种语言,采用统一的标注方案。
    • 推动了大量新的多语言句法分析研究。
  • 领域内研究增多
    • 关于NLP所有主题(包括多语言)的论文数量大幅增加。
    • 也有许多来自通用机器学习领域的交叉研究。
  • 迁移学习的进步
    • 从无标注文本(如维基百科)中学习的能力显著增强。
    • 能够更有效地利用现有资源,从而减少对每种语言进行人工标注的需求。

消极趋势

  • 竞争更加激烈
    • 在评测任务中“获胜”可能带来巨大的价值(声誉和未来薪资)。
    • 导致很少有研究者真正关心语言本身。
  • 实验成本更高
    • 运行实验(尤其是使用GPU)的成本现在非常高。
    • 实验结果难以预测。
    • 面临着减少实验数量和数据集数量的压力。
  • 发展过快,缺乏严谨性
    • 发表成果的巨大压力。
    • 论文数量的激增使得评审过程更加随机。
    • 这种动态机制助长了增量式的工作,而非突破性研究。

我们真正需要的是什么

  • 精心标注的数据:理想情况下,由小型专家团队完成。
  • 广泛的实验:实验设计应旨在回答问题,而不是优化基准测试分数。
  • 持续维护的数据集:数据集不应是静态资源,而应能不断改进和更新。

介绍某商业标注工具

该工具是一个现代化的标注工具,可通过访问其官网了解更多信息。


感谢!

某机构 欢迎在Twitter上关注我们:@honnibal @_inesmontani @某机构FINISHED