2021年自然语言处理技术进展与spaCy v3发布亮点

2 阅读6分钟

2021年回顾

2021年即将结束,与上一年类似,它充满了影响共同工作的独特挑战。对某机构而言,这是非常富有成效的一年。找到了符合战略的投资者,发布了spaCy v3,Prodigy Teams的工作正在全力推进,团队也壮大了许多。以下是2021年亮点的回顾。

一月

🏫 1月19日:新年伊始,发布了免费spaCy在线课程的葡萄牙语翻译版:《PLN avançado com spaCy》。特别感谢Cristiana Straccialana Parada。 📺 1月22日:Ines受邀作为嘉宾参加TalkPython播客,讨论了如何建立数据科学初创公司。

二月

💫 2月1日:以spaCy v3.0的重大发布开启了二月。该版本具有新的基于Transformer的管道,使spaCy的准确性达到了当前最先进的水平,以及一个新的工作流系统,以帮助项目从原型到生产。如果对spaCy v3感兴趣,可以观看视频,其中Ines和Matt将引导了解一些最令人兴奋的新功能! 🪐 2月1日:作为spaCy v3发布的补充,发布了spaCy项目,用于管理针对不同用例和领域的端到端spaCy工作流。 📺 2月1日:随着spaCy v3的发布,Ines发布了幕后spaCy v3设计概念视频。 📺 2月1日:Sofie通过她的关于在spaCy v3中实现可训练的实体关系提取组件的教程来庆祝spaCy v3的发布。 📺 2月3日:在Contributing.Today与Guido van Rossum的见面会上,Sofie展示了spaCy v3的新功能。

三月

💫 3月4日:发布了spaCy和Stanza包的1.0版本,允许直接在spaCy中使用最新的Stanza(StanfordNLP)研究模型。 📺 3月17日:三月出现了Vincent Warmerdam的“Intro to NLP with spaCy”系列的新一集。在这一集中,Vincent展示了spaCy v3的项目系统。 📺 3月29日:Ines参加了德国Python播客,讨论使用spaCy进行自然语言处理。 🥳 3月30日:三月底,庆祝spaCy在GitHub上获得了超过2万颗星。

四月

📺 4月22日:Ines受邀作为嘉宾参加某中心的“A bit of AI”节目,谈论了她进入AI领域的历程。 📺 4月30日:当月晚些时候,Ines参加了Snorkel科学讲座,讨论了她进入机器学习的路径、spaCy背后的基本设计决策,以及在机器学习开发过程中汇集不同利益相关者的重要性。

六月

📺 6月4日:六月初,Ines和Matt在Bay Area NLP小组(世界上最大的NLP社区之一)发表了演讲。 📺 6月10日:Ines在NAACL-2021的Teaching NLP Workshop上发表了主题演讲。随后是Ines和Matt的问答环节。 📺 6月14日:Ines和Sebastian在PyFest接受采访,谈论了开源项目、合作、spaCy和FastAPI。 📺 6月17日:在Rasa的Level 3 AI Assistant会议上,Ines发表了“Applied NLP Thinking”演讲。 ✍️ 6月19日:Ines发布了“Applied NLP Thinking”的博客文章版本,以及如何将复杂的业务问题转化为机器学习解决方案。

七月

💫 7月7日:发布了spaCy v3.1,允许在训练期间使用预测的注释。此外,该版本包括一个SpanCategorizer组件,用于预测任意和重叠的文本范围。可以使用Prodigy新的重叠范围标注UI为其创建训练数据。

🥳 7月14日:Sofie成为spaCy的团队负责人。

八月

⚙ 8月12日:与某机构合作,可复现的spaCy NLP管道的跟踪变得更加容易。 ✨ 8月12日:发布了Prodigy v1.11,包括一系列新功能:通过pip的新安装过程、适用于Python 3.9和ARM架构的新wheel、用于标注重叠和嵌套范围的新配方和UI、用于改进句子识别器模型的新配方、与spaCy配置系统无缝集成的进一步训练和数据导出配方。 📺 8月17日:Ines在墨尔本Triple R广播电台的Byte Into IT节目中直播。

九月

💥 9月2日:一个重要时刻——出售了某机构5%的股份。自2016年成立以来,一直将公司作为盈利企业运营。下一步是Prodigy Teams,做好这个项目比低成本完成更重要,因此决定考虑外部投资。与SignalFire合作,找到了符合战略的投资者。

十一月

💫 11月5日:发布了spaCy v3.2,提高了spaCy在Apple M1和Nvidia GPU上的性能,增加了管道的Doc输入,并提供了注册的评分函数。 🍏 11月5日:随着新的spaCy 3.2,发布了thinc-apple-ops包,通过调用Apple原生的“Accelerate”库来加速macOS上的spaCy。 🌸 11月5日:还展示了Adriane在新建的floret库上的近期工作,该库使用fastText和Bloom嵌入为spaCy提供紧凑、全覆盖的向量。 🌳 11月17日:十一月中旬,Daniël展示了新的基于机器学习的实验性词形还原器,对许多语言的准确率超过95%。 ✍️ 11月17日:机器学习工程师Lj Miranda发布了关于使用spaCy项目配置系统的详细技术概述,以不断提高的抽象级别遍历技术栈。 🛡️ 11月17日:某报刊报道了其数据科学团队如何使用spaCy和Prodigy训练一个机器学习模型,帮助从新闻文章中提取引文并将其与正确的来源匹配。 📺 11月30日:某机构主持了与Ines的问答活动,她讨论了软件开发、Python、初创公司和产品构建。

十二月

✍️ 12月8日:Ines为KDNuggets分享了她对2021年AI和机器学习发展以及2022年关键趋势的看法。 🏫 12月9日:更新了针对spaCy v3的交互式NLP课程!更新后的课程提供英语、西班牙语、德语和日语版本。更多语言将陆续推出。 ✍️ 12月14日:为了展示spaCy v3.2的性能,Adriane编译了一系列UD基准测试,可与Stanza和Trankit在Universal Dependencies v2.5上的评估相媲美。 🦑 12月15日:机器学习工程师Edward发布了他关于Healthsea的博客文章,这是一个端到端的spaCy管道,用于分析用户对补充产品的评论并提取其对健康的潜在影响。 📺 12月17日:Ines受邀作为嘉宾参加TalkPython播客,讨论机器学习伦理和欧盟法律。

随着社区和团队的持续成长,期待2022年能变得更好。感谢所有支持!


关于作者

  • Ines Montani:CEO,创始人。Ines是某机构的联合创始人,也是spaCy NLP库和Prodigy标注工具的核心开发者。她帮助为AI工程师和研究人员的开发者工具中的用户体验设定了新标准。
  • Matthew Honnibal:CTO,创始人。Matthew是AI技术的领先专家。他于2009年完成博士学位,并在此后又花了5年时间发表关于最先进NLP系统的研究。他于2014年离开学术界,编写spaCy并创立某机构。
  • Sofie Van Landeghem:机器学习工程师,spaCy负责人。Sofie是一名机器学习和NLP工程师,在2006年攻读硕士期间对该领域产生了浓厚兴趣。她的博士研究专注于生命科学的文本挖掘,博士毕业后在制药和食品行业继续相关工作。
  • Philip Vollet:开发者关系负责人。