如何在自己的电脑上部署一个7B大模型

85 阅读2分钟

前言

为什么是7B?因为我查了一下,消费级电脑,7B一般没有问题。以下是我问的AI

问:我想在Windows安装openclaw,但是网上token太贵,我在本机安装一个Qianwen3.5 4B模型,可行吗?

答:可行,非常好。在 Windows 上本地安装 OpenClaw 并配合 Qwen 3.5 4B 模型是完全可行且非常高效的方案。这种做法不仅能帮你省下昂贵的 API Token 费用,还能保障数据隐私,因为所有操作都在你的本地机器上完成。

电脑配置要求:3G现存16G内存。GTX1060 、RTX3050都是可以的。

具体操作步骤

下载模型

推荐下载带GGUF的模型,这样的模型是压缩过的,占资源少,例如:小米 MiMo-VL-Miloco-7B-GGUF 如何下载呢?

问:用 llama.cpp 运行小米 MiMo-VL-Miloco-7B-GGUF 模型。我是在wsl子系统中用llama.cpp呢,还是在宿主机windows中用llama.cpp呢?

1)首先要安装Python3.12,然后执行 pip install modelscope 创建一个download.py的文件,输入以下内容,然后执行 python download.py就可以了。 from modelscope import snapshot_download

model_dir = snapshot_download('xiaomi-open-source/Xiaomi-MiMo-VL-Miloco-7B-GGUF')

屏幕截图 2026-03-23 212104.png

运行模型

llama-cli -m "C:\Users\Dev\.cache\modelscope\hub\models\xiaomi-open-source\Xiaomi-MiMo-VL-Miloco-7B-GGUF\MiMo-VL-Miloco-7B_Q4_0.gguf" --mmproj "C:\Users\Dev\.cache\modelscope\hub\models\xiaomi-open-source\Xiaomi-MiMo-VL-Miloco-7B-GGUF\mmproj-MiMo-VL-Miloco-7B_BF16.gguf" -p "你好,请介绍一下你自己" -n 512 -ngl 99

屏幕截图 2026-03-23 212307.png

进阶

你可以以server的方式运行,然后提供接口服务,对接openclaw,对接anythingLLM. 注意运行的时候,把并发设置为1(自己用,不用开那么多并发吃资源) 参考运行命令如下: llama-server -m "C:\Users\Dev.cache\modelscope\hub\models\xiaomi-open-source\Xiaomi-MiMo-VL-Miloco-7B-GGUF\MiMo-VL-Miloco-7B_Q4_0.gguf" --mmproj "C:\Users\Dev.cache\modelscope\hub\models\xiaomi-open-source\Xiaomi-MiMo-VL-Miloco-7B-GGUF\mmproj-MiMo-VL-Miloco-7B_BF16.gguf" --parallel 1 --host 0.0.0.0 --port 8080 -ngl 99 --alias "claude-3-5-sonnet-20241022"

屏幕截图 2026-03-23 212639.png

其他提示词

问你常用的大模型(豆包、元宝等) 我已经用llama-server 启动了服务,接下来我想用这个服务,对接openclaw,我该如何做 我想对接anythingLLM我该如何做