使用AI构建人工智能
AI驱动的编码助手已经改变了我们构建软件的方式——而它们对于AI开发本身的影响可能更大。在本次演讲中,我将阐述为什么我们应该使用大语言模型来构建系统,而不是将其作为系统本身,以及为什么代码和开源生态比以往任何时候都更加重要,而非相反。
演讲稿内容
某机构 爆炸
面向工业级自然语言处理的开源库 · spacy.io · 4.7亿+次下载
大语言模型在处理spaCy代码方面确实表现出色!
12000+用户 · 1000+公司 · 面向机器学习开发人员的现代化可脚本化标注工具 · prodigy.ai · 完全可用Python编写脚本
编码助手的用途:
- 帮助开发者为给定工具实现代码
- 帮助开发者选择合适的工具并实现代码
- 解决业务问题
示例任务: “我需要分析这些公司报告,并创建一个表格,展示不同IT服务类型随时间变化的总支出。” (涉及 2025.pdf, 2024.pdf, 2023.pdf)
反转这些字符串 → 编写脚本来反转字符串
提示 vs 程序
理想的系统特性: 可复现、可扩展、可维护、更快、更便宜、可扩展、开源生态、编码助手经验
将LLM作为系统 vs 使用LLM来构建系统
自然语言 vs 结构化数据
- 供人类消费 vs. 供机器消费
任务分解示例: “我需要分析这些公司报告,并创建一个表格,展示不同IT服务类型随时间变化的总支出。”
- 解析PDF
- 提取支出项
- 分类支出类型
- 执行数学计算
- 创建表格
- 填充数据库
- “结果将被添加到我们的内部数据库,以便我们预测未来的支出。” → 模型预测
许多NLP系统核心由平面分类组成。你可以将它们全部塞进一个提示中,也可以将其分解成更小的部分。如今许多分类任务直接解决很简单——但如果一个模型需要同时完成所有任务,就会变得极其复杂。
人机协同蒸馏流程:
- 大语言模型
- 持续评估基线
- 提示工程
- 迁移学习
- 蒸馏模型
- 生产环境
将文档分类到自定义类别 → 创建数据并训练一个用于自定义类别的分类器
AI模型的帕累托前沿(成本 vs. 准确性) 大语言模型作为开发者工具改变了计算方式! 运行时间 → 开发阶段 使用LLM来创建运行时的系统:编写代码、创建数据、训练分类器、制定策略
使用LLM来构建系统,而不是将LLM作为系统本身。 无需在开发最佳实践或隐私方面妥协。 代码比以往任何时候都更重要——而非不那么重要! *(这也包括开源生态!)*FINISHED