结构化数据:LLM从原型到生产

1 阅读2分钟

迈向结构化数据:大语言模型从原型到生产

大语言模型拥有巨大潜力,但也挑战了工业界现有需要模块化、透明化、数据私密化和结构化数据的工作流程。本次分享将介绍务实且实用的方法:如何将大语言模型用于聊天机器人之外的场景,如何将更成功的自然语言处理项目从原型推向生产,如何在真实世界应用中使用最新的先进模型,并将其知识蒸馏为更小、更快、可在内部运行和维护的组件。

工业软件特性

  • 模块化 🧩
  • 透明化 🔎
  • 可解释性 🔮
  • 数据私密化 🔒
  • 可靠性 ✅
  • 成本可接受 💸

工业软件中:黑盒模型 vs 第三方API

模型演进

  • 大型生成模型 🔮
  • 蒸馏后的任务特定模型 📦
  • 上下文学习 (Falcon, MIXTRAL, GPT-4)
  • 迁移学习 (ELECTRA, T5)
  • BERT-base 仍然非常有竞争力!

缩小原型与生产之间的差距

  • 🔗 标准化输入与输出
  • 📈 从评估开始(评估效用,而不仅仅是准确率)
  • 🔁 迭代式处理数据
  • 💬 考虑自然语言的结构与歧义性

人在回路

持续评估基线 → 提示优化 → 主动学习/标注工具 → 迁移学习 → 蒸馏模型

案例研究 (PyData NYC 2023 工作坊)

  • 从 Reddit 烹饪板块抽取菜品、食材和设备
  • 数据开发时间:8 小时
  • 模型大小:400 MB
  • 推理速度:2000+ 单词/秒
  • 使用大语言模型辅助标注
  • 任务特定模型击败了小样本大语言模型基线(0.74)
  • 推理时间加速 20 倍

资源

  • 💥 Explosion (某机构)
  • 💫 spaCy (某开源库)
  • ✨ Prodigy (某标注工具)
  • 社交账号:@_inesmontani 等FINISHED