开源十年:NLP与LLM技术演进

4 阅读7分钟

10 Years of Open Source: Navigating the Next AI Revolution

在人工智能和自然语言处理领域,发生了很多事情:对新技术的无尽兴奋、炒作过后的清醒宿醉,以及对该领域未来走向的不确定性。在本次演讲中,将分享在开源软件十年工作中所学到的最重要经验、帮助适应不断变化的人工智能格局的核心理念,以及为什么开源和互操作性仍然胜过黑盒的专有API。

Resources

spaCy: 工业级自然语言处理 spacy.io spaCy 是一个用于 Python 语言高级自然语言处理的免费开源库。它专为生产环境使用而设计,帮助构建能够处理和“理解”大量文本的应用程序。

Prodigy: 高效能的机器教学工具 prodi.gy Prodigy 是一个现代化的标注工具,用于为机器学习模型创建训练数据。它的效率极高,数据科学家可以自行完成标注,从而实现新层次的快速迭代。

spacy-llm: 将大型语言模型集成到结构化NLP流水线 github.com/explosion/s… spacy-llm 具有模块化系统,支持快速原型设计和提示工程,能将非结构化响应转换为各种自然语言处理任务所需的稳健输出,无需训练数据。

人工智能革命不会被垄断:开源如何击败规模经济,即使对于大型语言模型也是如此 speakerdeck.com/inesmontani… 我们是否正进一步走向一个由大型科技垄断企业控制、隐藏在应用程序接口背后的黑盒大模型时代?不这么认为,并将在本次演讲中说明原因。

人机协同蒸馏实用指南 explosion.ai/blog/human-… 这篇博文提出了实用的解决方案,用于在现实世界应用中使用最新的最先进模型,并将其知识蒸馏成更小、更快的组件,这些组件可以在内部运行和维护。

某机构如何利用自然语言处理、spaCy和Prodigy提高市场透明度 explosion.ai/blog/sp-glo… 一个关于某机构在高度安全环境中,使用人机协同蒸馏技术,为实时大宗商品交易洞察构建高效信息抽取流水线的案例研究。

让他们写代码 speakerdeck.com/inesmontani… 讨论指导工具设计的开发理念和思维方式,以及如何在代码中实现这些理念的实用技巧。

敲窗机测试 ines.io/blog/window… 技术将如何塑造未来的世界?以及应该构建什么样的工具和产品?在设想未来的可能性时,回顾过去,将过去的愿景与今天的现实进行比较会有所帮助。

Transcript

开源工业级自然语言处理库 spacy.io 2.55亿+ 次下载

现代可脚本化的机器学习开发者标注工具 prodigy.ai 900+ 家公司 1万+ 用户

^ spaCy 的第一次提交

^ spaCy 第一次提交 spaCy 首次发布 spacy.io

我们的开发理念 “让他们写代码” spacy.fyi/ltwc 好的工具能帮助人们完成工作。不必代替他们做工作。 ["go", "swim"] spaCy 可以重新发明轮子,但不要试图重新发明道路。

^ spaCy 第一次提交 spaCy 首次发布 spacy.io 每个人都对聊天机器人感到兴奋

“敲窗人”

敲窗机测试 ines.io/blog/window-knocking-machine-test

你在设计一个“敲窗机”还是一个“闹钟”?

你好,我是 Toni 的虚拟助手,负责安排日程。周一下午1点你有空吗? 不行,但周二我可以。 好的,请确认:周二下午1点? 1点不太理想,但下午3点可以。 Toni 下午3点没空,但我可以提供下午4点或5点半的时段。 顺便问一下,这是哪个时区? 我使用的是 CET 时区。 Calendly “敲窗机” vs “闹钟”

^ spaCy 第一次提交 spaCy 首次发布 spacy.io 深度学习被广泛采用 每个人都对聊天机器人感到兴奋

软件 1.0 📄 代码 💾 程序 编译器

软件 2.0 📊 数据 🔮 模型 算法 ✅ 测试 📈 评估 重构 重构 迭代 迭代

Prodigy 首次发布 prodigy.ai

语言模型预训练有效 ^ ^ Prodigy 首次发布 prodigy.ai 少样本上下文学习有效 ^ ^

spaCy v3 首次发布

工业应用场景 生成式任务 📖 单/多文档摘要 🧮 推理 ✅ 问题解决 ✍ 释义 🖼 风格迁移 ⁉ 问答 预测式任务 🔖 实体识别 🔗 关系抽取 👫 共指消解 🧬 语法与形态 🎯 语义解析 💬 话语结构 📚 文本分类 结构化数据 许多工业问题保持不变,只是规模发生了变化

spaCy v3 首次发布 上下文学习获得关注

面向人类的系统 vs 面向机器的模型 ChatGPT GPT-4 人工智能产品不仅仅是模型

最重要的差异化因素是产品,而不仅仅是技术 面向人类的系统 vs 面向机器的模型 ChatGPT GPT-4 用户界面/用户体验 市场营销 定制化 最重要的差异化因素是产品,而不仅仅是技术 可互换的组件,基于研究,影响可量化 速度 准确性 延迟 成本 但数据呢? 用户数据是产品的优势,而不是面向机器任务的基础。 不需要特定数据来获得通用知识。

spaCy v3 首次发布 上下文学习获得关注

spacy-llm 首次发布 github.com/explosion/spacy-llm spaCy v3 首次发布 上下文学习获得关注

任务特定输出 💬 提示 📖 文本 大型语言模型 spacy-llm spacy.io/usage/large-language-models

提示模型并转换输出为结构化数据 配置.cfg 结构化数据 {} 大型语言模型 文本

统一、模型无关的应用程序接口 实体识别、实体链接、文本分类、关系抽取等等

spacy-llm 首次发布 github.com/explosion/spacy-llm spaCy v3 首次发布 上下文学习获得关注 大型语言模型和生成式人工智能完全成为主流 ChatGPT ⏺ ⏺ ⏺

规模经济 输出成本 某机构A 某机构G 获取人才、计算资源等 应用程序接口请求批处理 高流量 💧 💧 💧 💧 💧 💧 💧 💧 低流量 批次 💧 💧 💧 💧 💧 💧 💧 💧 … 你 🤠

人机协同蒸馏很有前景 prodigy.fyi/distillation

人机协同 explosion.ai/blog/human-in-the-loop-distillation 大型语言模型 持续评估 基线 大型语言模型 提示工程 迁移学习 组件 蒸馏模型

案例研究:某机构 • 通过提取结构化属性获取实时大宗商品交易洞察 6mb 模型大小 16k+ 单词/秒 F1分数 99% explosion.ai/blog/sp-global-commodities • 高安全性环境 • 在标注期间使用大型语言模型 • 人与模型协同,数据开发速度提升10倍 • 8个市场流水线已投入生产 99% F1分数

人机协同蒸馏很有前景 prodigy.fyi/distillation 每个人再次对聊天机器人感到兴奋

? ines.io/blog/window-knocking-machine-test

2023年服务收入总额是多少? $2,923,531 总共有多少客户? 29 ⏺ ⏺ ⏺ 🔮 大型语言模型 📚 数据库 🤖 代理 ⚙ 查询 检索增强生成

人工智能仍然需要产品决策! 分析师 Kim Miller

人机协同蒸馏很有前景 prodigy.fyi/distillation 每个人再次对聊天机器人感到兴奋

某机构回归独立自主和自给自足 explosion.ai/blog/back-to-our-roots 人机协同蒸馏很有前景 prodigy.fyi/distillation 每个人再次对聊天机器人感到兴奋 下一步是什么?

采用周期 规则和条件逻辑 → 应用工作流 线性模型 → 应用工作流 将新技术与既定工作流结合 深度学习 → 聊天机器人 → 应用工作流 迁移学习 → 转换器 → 应用工作流 上下文学习 → 大型语言模型和生成式人工智能 → 应用工作流

总结 导航人工智能与自然语言处理

超越聊天机器人或类人任务。不想构建一个“敲窗机”。 结构化数据 {} 专注于应用程序。考虑其真正需要什么,并让数据引导。

保持雄心壮志。不在最佳实践、效率和隐私上妥协。

大型语言模型 不断充实工具箱。了解可用的技术,并应用最佳技术来完成任务。FINISHED