本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在智泊AI。
大家好,今天看到北京大学的一个大佬开源项目,通过一个制定命令微调大模型,不需要你懂太多的技术,只需要你有足够高的电脑配置。
核心功能:
- • 快速编辑: 可以在 10 秒内通过一个简单的命令,向大型语言模型中添加新的知识。
- • 知识注入: 允许用户将新的、定制化的事实知识整合到现有的模型中,而无需重新训练整个模型。
技术实现:
- 它实现了名为 ROME (Rank-One Model Editing) 的算法,这是一种高效的模型编辑技术。
- 通过自回归 Transformer 语言模型中事实关联的存储和回忆,发现这些关联对应于局部化、可直接编辑的计算。
支持的模型:
FastEdit 支持多种流行的大型语言模型,包括:
- • GPT-J (6B)
- • LLaMA (7B/13B)
- • LLaMA-2 (7B/13B)
- • BLOOM (7.1B)
- • Falcon (7B)
- • Baichuan (7B/13B)
- • InternLM (7B)
硬件要求:
- • 编辑 LLaMA 7B 模型: 需要大约 24GB 的显存。
- • 编辑 LLaMA 13B 模型: 需要大约 32GB 的显存。
使用案例:
项目页面给出了一个具体的例子:编辑 Ziya-LLaMA-13B-v1 模型,将“日本首相是谁?”的答案从“菅义伟”更新为“岸田文雄”,以展示其提供更新、准确事实知识的能力。
并且大佬还在计划实现 MEMIT 算法 ,
将数千条事实批量编辑到 Transformer 内存中,等于可以进行批量与预训练大模型。
未来计划:
- • 实现 MEMIT 算法: 这是一种可以一次性编辑大量事实知识的算法。
- • 自动化实体识别: 利用 NER (命名实体识别) 模型自动识别文本中的主题和目标,使编辑过程更加自动化。
- • 探索指令遵循模型的编辑: 研究如何在不降低模型性能的前提下,有效地编辑那些经过指令微调的模型。
| 类型 | 原理 | 耗时 | 成本 | 举个栗子 | 场景适用 |
|---|---|---|---|---|---|
| 预训练(Pretraining) | 从零开始喂海量文本,把模型训练出基本常识和语言能力 | 很久(几周-几月) | 超高(百万级GPU费) | GPT-3 的诞生 | 大公司、大模型研发 |
| 微调(Fine-tuning) | 在已有模型基础上喂少量新数据,提升特定领域表现 | 几小时到几天 | 高(需要大量显卡) | 把 GPT 微调成医疗助理 | 垂类应用场景 |
| FastEdit(模型编辑) | 直接改模型“记忆力”里的一小段,精修单个知识点 | 超快(几秒) | 超低(消费级 GPU 即可) | 把“英国首相”从“菅义伟”改成“岸田文雄” | 更新事实 / 修错回答 |
项目地址:
学习资源推荐
如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。
本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在智泊AI。