10 秒内通过一个简单的命令,微调你的本地大模型!!

34 阅读3分钟

本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在智泊AI

大家好,今天看到北京大学的一个大佬开源项目,通过一个制定命令微调大模型,不需要你懂太多的技术,只需要你有足够高的电脑配置。

核心功能:

  • • 快速编辑:  可以在 10 秒内通过一个简单的命令,向大型语言模型中添加新的知识。
  • • 知识注入:  允许用户将新的、定制化的事实知识整合到现有的模型中,而无需重新训练整个模型。

技术实现:

  • 它实现了名为 ROME (Rank-One Model Editing)  的算法,这是一种高效的模型编辑技术。
  • 通过自回归 Transformer 语言模型中事实关联的存储和回忆,发现这些关联对应于局部化、可直接编辑的计算。

支持的模型:

FastEdit 支持多种流行的大型语言模型,包括:

  • • GPT-J (6B)
  • • LLaMA (7B/13B)
  • • LLaMA-2 (7B/13B)
  • • BLOOM (7.1B)
  • • Falcon (7B)
  • • Baichuan (7B/13B)
  • • InternLM (7B)

硬件要求:

  • • 编辑 LLaMA 7B 模型:  需要大约 24GB 的显存。
  • • 编辑 LLaMA 13B 模型:  需要大约 32GB 的显存。

使用案例:

项目页面给出了一个具体的例子:编辑 Ziya-LLaMA-13B-v1 模型,将“日本首相是谁?”的答案从“菅义伟”更新为“岸田文雄”,以展示其提供更新、准确事实知识的能力。

并且大佬还在计划实现 MEMIT 算法 ,

将数千条事实批量编辑到 Transformer 内存中,等于可以进行批量与预训练大模型。

未来计划:

  • • 实现 MEMIT 算法:  这是一种可以一次性编辑大量事实知识的算法。
  • • 自动化实体识别:  利用 NER (命名实体识别) 模型自动识别文本中的主题和目标,使编辑过程更加自动化。
  • • 探索指令遵循模型的编辑:  研究如何在不降低模型性能的前提下,有效地编辑那些经过指令微调的模型。
类型原理耗时成本举个栗子场景适用
预训练(Pretraining)从零开始喂海量文本,把模型训练出基本常识和语言能力很久(几周-几月)超高(百万级GPU费)GPT-3 的诞生大公司、大模型研发
微调(Fine-tuning)在已有模型基础上喂少量新数据,提升特定领域表现几小时到几天高(需要大量显卡)把 GPT 微调成医疗助理垂类应用场景
FastEdit(模型编辑)直接改模型“记忆力”里的一小段,精修单个知识点超快(几秒)超低(消费级 GPU 即可)把“英国首相”从“菅义伟”改成“岸田文雄”更新事实 / 修错回答

项目地址:

github.com/fastedit-ll…

学习资源推荐

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在智泊AI