2020年NLP工具链技术回顾

3 阅读5分钟

2020年技术回顾:Thinc重构、spaCy v3.0与Prodigy新功能

一月

  • 1月28日:Thinc v8.0 alpha发布。这是一个轻量级深度学习库,提供优雅、类型检查的函数式编程API用于模型组合,支持PyTorch、TensorFlow或MXNet等其他框架定义的层。Thinc从头重写以支持spaCy v3.0的新工作流,包括灵活的训练配置系统以及接入任意框架编写的模型实现。

二月

  • 2月8日:在PyCon Colombia上,主题演讲《Python中NLP的未来》探讨了新的Python工具和自然语言处理进展如何缩小原型与生产之间的差距,使强大的自然语言理解管道更易交付。
  • 2月8日:同场访谈中讨论了spaCy的历史,以及如何进入编程、机器学习和NLP领域。

三月

  • 3月2日:Vincent Warmerdam视频系列《spaCy NLP入门》新一期,探索处理管道并训练了一个简单的命名实体识别(NER)模型来检测编程语言。
  • 3月16日:端到端视频教程展示如何利用半自动标注和现代迁移学习技术,使用标注工具Prodigy从零训练命名实体识别模型。
  • 3月20日:Typer库发布——基于Python类型提示构建现代命令行界面的库。
  • 3月24日:Prodigy教程视频展示如何为图像描述构建完全自定义的标注工作流和界面,以及如何接入简单的PyTorch图像描述模型。
  • 3月30日:参加Podcast.__init__播客,讨论了Explosion的开发者工具栈以及spaCy、Thinc和Prodigy的下一步计划。

四月

  • 4月21日:发布免费spaCy在线课程的首个翻译版《Modernes NLP mit spaCy》,包含德语指令和文本示例。
  • 4月26日:参加Chai Time Data Science播客,讨论了NLP之旅、spaCy和Prodigy、开源开发等话题。

五月

  • 5月6日:发布免费spaCy在线课程的日语翻译版《spaCy を使った先進的な自然言語処理》。
  • 5月7日:端到端视频教程展示如何使用spaCy训练自定义实体链接模型,将人名提及消歧到知识库中的唯一标识符,以及如何从零创建训练数据。
  • 5月11日:发布西班牙语版免费spaCy在线课程《NLP avanzado con spaCy》。
  • 5月14日:为免费spaCy课程录制了英语和德语视频版本,可作为独立课程在YouTube上观看,或作为互动在线课程的一部分。

六月

  • 6月13日:Vincent Warmerdam的《spaCy NLP入门》系列新一期,深入探讨了NER模型性能,使用基于规则的分类器探测错误并改进训练数据。
  • 6月16日:发布spaCy v2.3,新增中文、日语、丹麦语、波兰语和罗马尼亚语的训练管道,更新了全部15个模型族(加入词向量并提高准确率),同时减小了模型大小和加载时间。
  • 6月16日:Prodigy v1.10.0发布,新增依赖和关系标注、音频和视频标注的多种功能和食谱,以及支持编辑形状和边界框的改进版手动图像标注界面。
  • 6月16日:配套视频演示了新Prodigy功能,包括依赖和关系标注、共指消解、生物医学事件抽取、音频视频标注、用于微调Transformer的NER标注等。
  • 6月18日:在Rasa的Level 3 AI Assistant会议上,讨论了“设计实用的NLP解决方案”,如何将更大的业务问题分解为可解决的机器学习任务,以及如何减少NLP项目的失败。
  • 6月21日:spacy-streamlit发布——包含将spaCy管道集成到Streamlit应用中的构建模块和可视化工具的Python库。
  • 6月25日:发布免费在线课程的西班牙语视频版。

七月

  • 7月3日:参加Test & Code播客,讨论类型提示、FastAPI和Typer。
  • 7月22日:参加Python Bytes播客特别节目(从Manning Python Conference现场录制)。
  • 7月22日:发布免费spaCy课程的法语翻译版《NLP avancé avec spaCy》。
  • 7月29日:发布中文翻译版《使用 spaCy 做进阶自然语言处理》。

十月

  • 10月4日:参加Talk Python播客,讨论使用FastAPI构建现代快速API。
  • 10月13日:在DevJourney播客上分享了个人软件开发历程。
  • 10月15日:发布spaCy v3.0 nightly预发布版。v3.0包含全新的基于Transformer的管道,将spaCy的准确率提升至当前最先进水平。可使用任意预训练Transformer训练自己的管道,甚至通过多任务学习在多个组件之间共享一个Transformer。训练现在完全可配置和可扩展,可使用PyTorch、TensorFlow等框架定义自定义模型。新的spaCy项目系统允许在单个文件中描述整个端到端工作流,提供从原型到生产的简便路径,并可轻松克隆和适配最佳实践项目以满足自身用例。
  • 10月26日:在Global AI Live主题演讲中,展示了即将到来的spaCy v3.0如何使最先进的NLP项目从原型到生产比以往更容易。
  • 10月27日:被认定为Python软件基金会成员。
  • 10月29日:参加Gradient Dissent播客,讨论spaCy v3.0及其新功能、新版本背后的动机以及沿途所做的各种设计决策。

十一月

  • 11月4日:参加Rasa Chats播客,讨论构建弹性NLP应用。
  • 11月28日:在PyCon China主题演讲中,讨论了《通过FastAPI及其生态实现现代Python》。

十二月

  • 12月4日:为KDNuggets分享了关于2020年AI和机器学习发展以及2021年关键趋势的观点。
  • 12月11日:GitHub引入讨论板,正式启动spaCy讨论板。
  • 12月14日:启动新一轮向社区发送spaCy贴纸的活动,包含全息风格等新设计。
  • 12月28日:参加Talk Python的《Python年度回顾》节目,讨论2020年的收获和2021年的展望。FINISHED