迈向结构化数据:大语言模型从原型到生产
大语言模型拥有巨大潜力,但也挑战了工业界现有需要模块化、透明化、数据私密化和结构化数据的工作流程。本次分享将介绍务实且实用的方法:如何将大语言模型用于聊天机器人之外的场景,如何将更成功的自然语言处理项目从原型推向生产,如何在真实世界应用中使用最新的先进模型,并将其知识蒸馏为更小、更快、可在内部运行和维护的组件。
工业软件特性
- 模块化 🧩
- 透明化 🔎
- 可解释性 🔮
- 数据私密化 🔒
- 可靠性 ✅
- 成本可接受 💸
工业软件中:黑盒模型 vs 第三方API
模型演进
- 大型生成模型 🔮
- 蒸馏后的任务特定模型 📦
- 上下文学习 (Falcon, MIXTRAL, GPT-4)
- 迁移学习 (ELECTRA, T5)
- BERT-base 仍然非常有竞争力!
缩小原型与生产之间的差距
- 🔗 标准化输入与输出
- 📈 从评估开始(评估效用,而不仅仅是准确率)
- 🔁 迭代式处理数据
- 💬 考虑自然语言的结构与歧义性
人在回路
持续评估基线 → 提示优化 → 主动学习/标注工具 → 迁移学习 → 蒸馏模型
案例研究 (PyData NYC 2023 工作坊)
- 从 Reddit 烹饪板块抽取菜品、食材和设备
- 数据开发时间:8 小时
- 模型大小:400 MB
- 推理速度:2000+ 单词/秒
- 使用大语言模型辅助标注
- 任务特定模型击败了小样本大语言模型基线(0.74)
- 推理时间加速 20 倍
资源
- 💥 Explosion (某机构)
- 💫 spaCy (某开源库)
- ✨ Prodigy (某标注工具)
- 社交账号:@_inesmontani 等FINISHED