结构化数据：LLM从原型到生产本文探讨了大语言模型在工业软件中的应用挑战，提出了模块化、透明化、数据私密化的实用方案。内

迈向结构化数据：大语言模型从原型到生产

大语言模型拥有巨大潜力，但也挑战了工业界现有需要模块化、透明化、数据私密化和结构化数据的工作流程。本次分享将介绍务实且实用的方法：如何将大语言模型用于聊天机器人之外的场景，如何将更成功的自然语言处理项目从原型推向生产，如何在真实世界应用中使用最新的先进模型，并将其知识蒸馏为更小、更快、可在内部运行和维护的组件。

工业软件特性

模块化 🧩
透明化 🔎
可解释性 🔮
数据私密化 🔒
可靠性 ✅
成本可接受 💸

工业软件中：黑盒模型 vs 第三方API

模型演进

大型生成模型 🔮
蒸馏后的任务特定模型 📦
上下文学习 (Falcon, MIXTRAL, GPT-4)
迁移学习 (ELECTRA, T5)
BERT-base 仍然非常有竞争力！

缩小原型与生产之间的差距

🔗 标准化输入与输出
📈 从评估开始（评估效用，而不仅仅是准确率）
🔁 迭代式处理数据
💬 考虑自然语言的结构与歧义性

人在回路

持续评估基线 → 提示优化 → 主动学习/标注工具 → 迁移学习 → 蒸馏模型

案例研究 (PyData NYC 2023 工作坊)

从 Reddit 烹饪板块抽取菜品、食材和设备
数据开发时间：8 小时
模型大小：400 MB
推理速度：2000+ 单词/秒
使用大语言模型辅助标注
任务特定模型击败了小样本大语言模型基线（0.74）
推理时间加速 20 倍

资源

💥 Explosion (某机构)
💫 spaCy (某开源库)
✨ Prodigy (某标注工具)
社交账号：@_inesmontani 等FINISHED