本地部署运行 Google Gemma 开源大模型

2,148 阅读2分钟

gemma05.png

Google 开源了 Gemma 大模型,有 7B 和 2B 两个版本。

gemma06.png

而且,性能非常强悍,基准测试中 7B 模型的能力已经是开源模型中的领先水平。

Gemma 可以轻松的在本地部署运行,如果你的显存在 8G 以上,可以体验 7B 版本,8G 以下的话可以试试 2B 版本。

下面是本地部署步骤,以及体验感受。

一、部署步骤

思路:

  • 使用 ollama 运行 Gemma 模型
  • 使用 Chatbox 作为 UI 客户端

1. 安装 ollama

打开网页 ollama.com/

gemma07.png

下载你相应操作系统的版本。

我的是 Windows,下载后直接运行安装。

安装完成后,在命令行中执行命令:

ollama -V

正确显示版本号即为安装成功。

2. 运行 Gemma

ollama 网页顶部导航中有一个 “Models” 链接,点击。

gemma08.png

点击 “gemma” 链接,进入模型页面。

gemma09.png

点击 “Tags” 标签,找到 “7b” 模型,后面有运行模型的命令,点击复制按钮。

gemma01.png

命令行中执行这个命令,首次运行时,会自动下载模型。

下载完成后,就进入交互模式,这就可以开始聊天了。

gemma02.png

例如让它写一段python代码。

至此,Gemma 模型的本地部署运行已经完成了,非常简单。

3. 安装 Chatbox

在命令行聊天很不方便,需要一个客户端。

Chatbox 支持 ollama,非常方便。

先下载安装 Chatbox。

项目地址 github.com/Bin-Huang/c…

gemma10.png

在 Releases 页面中下载最新版本(目前是1.2.2,已经支持了 ollama),然后安装。

打开设置,模型提供方选 ollama,API 地址是本地的 11434 端口,模型选 gemma:7b。

gemma12.png

保存后,打开新对话窗口,即可开始聊天。

二、使用体验

1. 内容生成质量

例如,我让它用文艺伤感的方式描写“秋天来了”

gemma13.png

写的还是挺好的。

3. 响应速度

我的显卡是 4060Ti,16G 显存,响应速度超快。

gemma04.png

在内容生成过程中,显存是满载的。


本地能够如此简单、流畅的运行高质量大模型真的非常爽,推荐尝试。

#AI 人工智能,#google gemma,#ollama,#chatbox,#本地部署大模型,#gpt890, #prompt

转自 gpt890.com/article/21