本地运行LLM的实用指南

158 阅读3分钟

fhBFe6bWRWKy1s3yjt2zuQ.webp

嘿!我最近搞了几个项目,用上了LLM。我挺喜欢代理应用的,LLM能管控制流程。我把这些功能加到开发流程里,就开始研究怎么本地跑LLM。

为什么本地跑LLM?

我说的本地跑LLM,就是在我的开发机器上临时弄个模型。这不是让你自己搭AI服务。

说白了,本地跑LLM想跟ChatGPT或Claude一样牛,还早得很。你得有个超强的家用设备才行。如果只是想随便聊几句,在线服务比自己搞方便多了。

那啥时候适合本地跑呢?

  • 隐私得保护时
  • 钱得省着花时
  • 速度和质量无所谓时

我还在摸索怎么做代理。我怕出错弄出循环,用付费API会花大钱。我做副项目时,也不在乎速度和质量。

跑模型的几种选择

Ollama

image.png

Ollama现在感觉是本地LLM的顶流。它模型多,命令行也好用。模型库里有热门开源货,比如LLaMa、Mistral、Qwen和DeepSeek,参数和量化版本也一大堆。命令行跟Docker差不多,拉取、列出、运行都很简单。它还能让你自己弄模型上传。

用Ollama跑模型超容易。装好后,敲ollama pull llama3.2ollama run llama3.2就行。所以我觉得大多数人都该先试它。

Llama.cpp

image.png

Llama.cpp是用C/C++写的,所以叫这名。它哪都能跑,性能也不赖。好处是灵活,工具多。

它底层代码牛,能在各种平台上跑。对树莓派或老电脑这种弱设备很友好。它还能跑在安卓上,甚至用网页封装直接在浏览器里搞。

Llama.cpp自带一堆工具。它能跟Hugging Face直接连,那是个热门模型库。我觉得性能测试和困惑度测量命令挺酷,能看出模型在你硬件上咋样。

Llamafiles

image.png

Llamafiles是Mozilla的新玩意,一个文件就能跑本地LLM,不用装啥。它其实靠Llama.cpp。这东西适合快速分享模型给其他开发者。用法简单:下个llamafile,设成可执行,跑起来。浏览器界面自动在本地主机上开,互动超方便。

Llamafiles现在不如gguf火,Llama.cpp用的是gguf。你可以在llamafile的GitHub仓库或Hugging Face上找点样例模型。

挑个适合你的模型

选好跑LLM的方法后,得找个匹配你需求和设备的模型。模型不一样,有的快,有的省资源,看你咋用。

参数和量化

LLM大小用参数量说。你会看到7B、13B、65B,意思是几十亿参数。大模型回答更顺更细,但吃内存和算力多。如果随便试试或用笔记本,小模型(7B以下)最好。

模型还有量化版本,像Q4、Q6、Q8。量化把数字精度降下来压缩模型。回答准度会掉点,但弱设备跑得更好。Q4这种低量化快、省内存,质量差一点。Q8效果好,但资源费得多。

能力和工具

模型能力有差别。有些能直接用工具,比如代码解释器、API调用或搜索功能。想做代理应用就找支持工具的模型。很多开源模型没这功能,我发现DeepSeek就这样。想要本地LLM带基础工具调用,LLaMa 3.2挺好。

还得看模型擅啥。训练数据不同,有的搞代码牛,有的适合普通语言。LiveBench这种测试网站有排行榜,告诉你谁在哪块强。

其他注意点

翻模型库会发现文件都老大了。小模型几GB,大模型几十GB。试多了容易塞满设备,管好存储能少点麻烦。Ollama自己管模型目录,能避开这问题。

最后提个醒:跑本地LLM就是在跑网上下来的代码,有时是预编译的。得确认来源靠谱,尽量用Hugging Face、Ollama或官方GitHub仓库。