本地安装QWEN3.5 35B-A3B-Q4_K_M

0 阅读1分钟

不想调模型,可以本地安装大模型:QWEN3.5_35B-A3B-Q4_K_M:

1. 先进入你想安装的目录(比如用户主目录,推荐)

cd ~

2. Bash 执行你的安装命令(原命令不变)

  • apt-get update
  • apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
  • git clone github.com/ggml-org/ll…
  • cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
  • cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
  • cp llama.cpp/build/bin/llama-* llama.cpp

3. 验证编译成功(进入llama.cpp目录,检查可执行文件)

cd llama.cpp ls -l llama-cli # 能看到文件且权限为可执行(-rwxr-xr-x)则成功

下载QWEN3.5 Q4模型(国内镜像源(优先,速度快)

wget hf-mirror.com/unsloth/Qwe… -O ~/models/qwen3.5/Qwen3.5-35B-A3B-Q4_K_M.gguf

若下载中断,加 -c 断点续传

wget -c hf-mirror.com/unsloth/Qwe… -O ~/models/qwen3.5/Qwen3.5-35B-A3B-Q4_K_M.gguf

4. 运行

cd ~/llama.cpp

示例:运行Q4_K_M版 (模型在本地路径$HOME/models/qwen3.5/)- 模型名字严格区分大小写

./llama-cli -m "$HOME/models/qwen3.5/Qwen3.5-35B-A3B-Q4_K_M.gguf" --ctx-size 16384 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --n-gpu-layers 99 --batch-size 512

--chat-template-kwargs "{"enable_thinking": false}"

image.png