【Llama】无需GPU轻松本地部署大模型

990 阅读15分钟

在AI飞速发展的时代,大模型如雨后春笋拔地而起,部署大模型已不再是什么高科技操作了,只要你的电脑满足基本配置要求使用Ollama就可以轻松在本地部署模型。

使用Ollama,首先了解一下Ollama:

简介

Ollama 是一个开源的大型语言模型(LLM)服务工具,旨在简化在本地运行大语言模型的过程,降低使用门槛,使开发者、研究人员和爱好者能在本地快速实验、管理和部署最新大语言模型,如 Qwen2、Llama3、Phi3、Gemma2等。它提供了一个简洁易用的命令行界面和服务器,让你能够轻松下载、运行和管理各种开源 LLM。

Ollama的优势

  • 开源免费:Ollama及所支持的模型均开源免费,可自由使用、修改和分发。
  • 简单易用:无需复杂配置,通过几条命令即可快速启动运行。
  • 模型丰富:涵盖Llama 3、Mistral、Qwen2等众多热门开源LLM,支持一键下载切换。
  • 资源占用低:对硬件要求不高,普通笔记本电脑也能流畅运行。
  • 社区活跃:拥有庞大活跃社区,便于获取帮助、分享经验及参与模型开发。

Ollama的限制

按照官方的要求,电脑配置至少有 8 GB 可用内存来运行 7 B 型号,16 GB 来运行 13 B 型号,32 GB 来运行 33 B 型号。

如何使用 Ollama?

只需遵循以下步骤即可开始使用Ollama:

  • 安装Ollama:依据操作系统,访问Ollama官网下载并安装最新版。
  • 启动Ollama:点击Ollama应用直接启动。
  • 下载模型:前往模型仓库,选中所需模型,用ollama pull下载,如ollama pull llama3:70b。
  • 运行模型:使用ollama run启动模型,如ollama run llama3:70b。
  • 开始聊天:在终端输入问题或指令,Ollama将依模型生成回复。
  • 网络共享:在一台电脑部署模型,通过IP或服务形式共享给其他设备使用

官网

官网地址:ollama.com

进入官网看到这只可爱的羊驼那就对了。

图片

文档

文档地址:github.com/ollama/olla…

官方文档托管在Github,打不开的尝试使用科学方式

注册登录

只是下载及运行模型不注册也可以,如需账号可以使用邮箱注册登录

图片

图片

                   

模型广场

模型地址:ollama.com/library

在Ollama首页点击【Models】可以查看Ollama支持的所有模型列表。

图片

点击模型即可看到模型的详细信息,包含介绍、安装方式等。

图片

安装Ollama

安装包托管在Github,如果无法下载请科学上网

在Ollama官网首页点击【Download】,选择对应平台点击【Download for ...】进行安装包下载

图片

图片

以Mac为例,下载完成后直接双击根据提示完成安装(安装过程很简单),点击 Move to Applications ,按照建议,将其移动到应用程序文件夹下。Ollama默认会加入启动项,不需要的直接删除即可。

图片

图片

点击【Next】进行安装引导,Ollama需要插入 ollama 指令到命令行(后续直接在终端使用命令行操作),点击【Install】安装,输入电脑密码,点击【Finish】完成引导。

图片

图片

图片

启动后看到状态栏中有Ollama模型表示启动成功,接下来就可以使用Ollama运行模型了

图片

下载运行模型

官方建议:至少有 8 GB 可用内存来运行 7 B 型号,16 GB 来运行 13 B 型号,32 GB 来运行 33 B 型号。

在模型广场找到想要的模型,根据自己电脑配置选择满足条件的型号进行下载。

图片

以 qwen2.5:14b 为例,在终端执行命令(如果本地没有对应模型,Ollama会先执行pull拉取,拉取完成后执行run运行)

$ ollama run qwen2.5:14b

运行成功后效果如下:

图片

Ollama常用命令行操作

查看帮助

有任何命令行问题,都可以通过help命令查看帮助

$ ollama --help

图片

举个例子,如想了解如何运行一个模型,可以这样查看

$ ollama run --help

图片

最终得知 run 指令后面需要提供模型名称

$ ollama run 模型名称                  
如:
$ ollama run qwen2.5:1.5b

命令行方式启动Ollama

$ ollama serve

查看已下载模型

$ ollama list                  
或                  
$ ollama ls

图片

打印信息中 NAME 就是模型的名称

查看正在运行的模型

$ ollama ps

图片

查看模型详情

$ ollama show 模型名称

图片

运行模型

$ ollama run 模型名称

停止模型

$ ollama stop 模型名称

删除模型

$ ollama rm 模型名称

基本使用

开始对话

模型启动后,在命令行直接输入提示词即可与模型进行对话。

图片

在VSCode中使用

Continue插件配置相对简单一些

本地Ollama启动后默认端口号为 11434,在 Continue 插件中【API Provider】选择【Ollma】,【Base URL】默认为11434可以不填,输入模型名称 qwen2.5:14b,点击【Let's go!】完成配置

图片

图片

图片

图片

使用Chat UI

如果觉得上面方式都不适合你,也可以选择使用像ChatGPT那样的现代聊天窗口工具,目前有很多,可以使用三方的,也自己clone本地运行:

这里以 Chatbox 为例简单实用,进入官网,点击【启动网页版】

图片

进入网页版聊天页面,点击左下角【Settings】,设置完成后即可用使用Chat了。

图片

图片

使用体验

本人使用是Mac mini,无GPU,3.2 GHz 六核Intel Core i7,32G运行内存,500G存储分别跑了 qwen2.5:14b、qwen2.5:7b、qwen2.5:3b、qwen2.5:0.5b,目前为止只体验了模型响应速度:

  • 终端模型:在终端直接使用模型聊天,qwen2.5:0.5b 响应速度秒回,qwen2.5:3b 响应速度较快,qwen2.5:7b 响应速度逐行,qwen2.5:14b响应速度较慢和逐词差不多
  • VS Code:在VS Code中配合 Continue 插件使用,效果体感较差,响应速度都很慢
  • ChatUI:使用不多,没有深度体验

只在VS Code + Continue中体验了qwen2.5:0.5b 的内容生成,提示到一半就死循环了,体感效果很差。

总结

使用Ollama可以轻松在本地部署模型,但是需要选择符合系统配置参数的模型,无GPU的电脑部署了较大的模型可能响应速度较慢,需要一定的忍耐度,硬件配置不是很好的小伙伴还是建议使用现有模型服务,模型真的很费存储和算力。

友情提示

见原文:【Llama】无需GPU轻松本地部署大模型)

本文同步自微信公众号 "程序员小溪" ,这里只是同步,想看及时消息请移步我的公众号,不定时更新我的学习经验。