llama3.1 原模型及中文微调模型使用效果汇报

2,502 阅读3分钟

前文

llama3.1 强势来袭,我也是第一时间就下载使用了,下面给各位领导汇报一下最新的成果和使用体验感受。下面是官方的性能图,请欣赏开源的强大力量,闭源估计在瑟瑟发抖。

image.png

image.png

准备

因为我是第一天就直接使用,在 huggingface llama3.1 上面的模型还没法直接使用,需要提交申请,只有通过之后才能使用,我这里已经过去两天了还没有任何消息,果断放弃了。

现在最方便的是使用 Ollama 框架平台来拉取 llama 3.1 的模型,分别有 8B 、70B、405B ,我这里的硬件只能支撑 8B 。首先你要先保证安装好 Ollama ,如果不会可以看我这个教程 ,包教包会。然后在命令行使用下面的命令拉取模型。

ollama run llama3.1

如果拉取成功,我们可以通过下面的命令看到本地的模型列表。

ollama list

image.png

然后我们通过命令 ollama ps 查看模型是否已经运行,如果没有运行起来我们使用下面的代码运行模型。

ollama run llama3.1 

到此为止原始的 llama3.1-8b 的模型已经运行起来了,显存占 7G 左右,正常情况命令行就可以进行互动交流,让我们看下效果吧。

llama3.1-8B 效果展示

回答的速度相当快,简单的互动都可以完成。

image.png

询问有难度的问题也可以快速响应,效果符合预期。

image.png

llama3.1-8B 缺点

在和业内人士交流的时候发现这个模型对于中文其实还不友好,有时候会出现乱答甚至不答的情况,所以为了能更好支持中文任务,我找到了经过中文微调数据的模型 Llama-3.1-8B 中文 DPO 模型 开始部署使用。

准备 Llama-3.1-8B 中文 DPO 模型

其实就是直接去官方页面 把所有文件都下载下来就可以了。不得不感叹开源的力量,真的是太大了,时隔一天就能出来微调版本,我相信后面应该还能继续出来效果更好适合中文的模型。

体验 Llama-3.1-8B 中文 DPO 模型

因为之前我自己搭了一个开源的大模型 聊天界面,所以我直接就使用自己的这个工具进行聊天,如果想学习的同学可以看我这篇教程。我将自己下载好的模型放到 text-generation-webui\models 目录之下。如果你已经安装好,那么使用下面的命令启动即可:

python .\server.py

启动成功之后,直接访问下面的页面:

http://127.0.0.1:7860

接下来我们还要做一下简单的配置,就是下图所示的几个步骤:

  1. 切换到 Model 页面
  2. 选择我们自己的模型 llama3.1-8B-Chinese-Instruct-DPO
  3. 点击 Load 按钮加载模型
  4. 如果显示 Successfully 就说明成功了,成功跑起来大约需要 16G 的显存。

image.png

然后切换到 Chat 页面就可以进行对话了,我直接问的就是比较有难度的业务问题,看起来回答的也比较符合预期。

image.png

总结

  • 开源的力量是越来越强大,Meta 这条路子总算是走对了,未来 LLAMA 成为大模型一个指日可待,干翻闭源模型也指日可待。
  • 其实不管怎么说 8B 的模型大小也就是能随便玩玩,想正式进入商用阶段还得使用 70B 、甚至 405B ,如果真的有一天 8B 的模型能够商用,也就是小模型能在消费级显卡上面支持商用,那真的是人工智能的到来之日。
  • 就在发文的功夫,最强开源的位置易主了,已经是 Mistral Large 2LLAMA3.1 的霸主之位只坐了一天,再次感叹开源力量,太卷了。