生成式AI时代如何倡导模块化NLP

4 阅读4分钟

聚焦新工作流

人工智能领域存在术语混淆的问题,人们对其具体含义的理解日益模糊。从特定任务的CNN模型和BERT嵌入,到生成式模型和ChatGPT等产品,都曾被冠以“AI”或“大型语言模型”(LLM)的称号。这意味着部分技术可能被忽视,而另一些看似更易上手、但往往不适合特定任务的技术却受到青睐。

当与对生成式AI充满热情的利益相关者沟通时,很容易让人觉得“我们必须不惜一切代价使用它!”。有时公司确实只想做一个 prestige 项目,但更常见的是,核心目标是交付商业价值。他们专门询问生成式AI,是想了解哪些项目具有新的前景。我们现在能做什么以前做不到的事情?

答案是,LLMs对NLP产生了巨大影响,尤其是在超越运行时的文本生成方面。这并非“旧式NLP”——而是将最新技术向前推进了一步。与其将大型生成模型用作解决特定任务的系统,不如利用它们来创建系统。这包括编写代码或开发基于规则的逻辑,或自动化数据创建,并将大型模型精炼成更小的组件,这些组件可以更好地执行你所关注的子集任务。

将技术置于情境中

我们日常接触的系统或流程,总希望它们在某种程度上更“智能”。但商业价值不仅仅来自部署无人做过的最前沿技术。它关乎找到最易于解决的恰当问题。生成式AI是让计算机与人类对话的好方法,但并非让计算机与其他计算机对话的好方法。

这种愿景也与近期的新闻和发展高度一致。我们真的需要耗费数百万的计算资源,并依赖大型科技公司的AI模型吗?不。我们需要更智慧地工作,而非更辛苦。借助正确的技术和工具,内部构建AI系统是完全可行的。

这实际上反映了我们在另一项突破性技术——网络上观察到的情况。随着系统需求日益复杂,现代开发者工具和新技术使得将操作复杂性转移到开发过程中成为可能。就像现代JavaScript工具链自动化了静态网站和应用的构建过程一样,生成式AI可以在开发过程中用于编写代码、创建数据和精炼定制模型。

其核心在于,AI开发本质上只是一种不同类型的软件开发。工作流正在迅速变化,许多新范式不断涌现——但归根结底,技术有一些基本属性,能帮助团队可靠地构建应用。我们逐渐认识到,作为一个行业,我们希望我们的解决方案具备以下特性:

  • 模块化,以便我们能够以不同方式组合一组我们理解的小型原语
  • 透明化,以便我们能够调试或预防问题
  • 可解释性,以便我们能够建立关于事物如何运作的正确心智模型
  • 数据隐私性,以便内部数据不离开我们的服务器,并满足法律和监管要求
  • 可靠性,以便我们拥有稳定且失败率低的请求响应时间
  • 经济性,以便符合我们的预算

如果依赖的是 monolithic 的黑盒模型和专有API,以上所有要求都难以实现。

实例展示胜过口头说明

观察成功的NLP项目和团队,会发现一个有趣的模式:最成功的项目通常由领域专家发现问题,并选择最有效的工具来解决。即使在大型组织中,成功的项目也往往由单个开发者或一个践行想法的小团队引领。现代开发者工具使即便最小的团队也能拥有极高的生产力。

例如,某机构的Chris曾担任大宗商品交易市场记者,后来他利用LLMs为实时结构化交易洞察创建数据,生成高度精确、仅有6MB的模型。他能够独自快速构建原型,其团队现在在生产环境中运行着许多不同的专业化pipeline。某机构的Jordan,一位音乐制作人和作曲家,亲身经历了艺术家因音乐元数据错误而损失数百万版税的情况,他自学编程,构建了一套模块化组件,用结构化NLP解决这个问题。

过去,定制解决方案的最大瓶颈是数据创建和标注。但随着迁移学习和Prodigy等工具的出现,情况已大为不同。现在只需要几个小时专注的工作、迭代工具和正确的自动化。如果有人试图论证内部开发AI的可行性,最好的论据就是一个可运行的原型。FINISHED