本地安装QWEN3.5不想调模型，可以本地安装大模型：QWEN3.5_35B-A3B-Q4_K_M，单卡24G可流畅推理

cd ~/llama.cpp && ./llama-server -m "$HOME/models/qwen3.5/Qwen3.5-35B-A3B-Q4_K_M.gguf" --ctx-size 32768 --n-gpu-layers 99 --batch-size 1024 --host 0.0.0.0 --port 8080 --chat-template-kwargs "{"enable_thinking": false}"

不想调模型，可以本地安装大模型：QWEN3.5_35B-A3B-Q4_K_M：

新版llama.cpp（重新安装）（命令中路径有变化）：

cd ~/llama.cpp && ./build/bin/llama-server -m "$HOME/models/gemma4/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf" --ctx-size 65536 --n-gpu-layers 99 --batch-size 512 --host 0.0.0.0 --port 8080 --reasoning off

唯一变化：

旧：./llama-server
新：./build/bin/llama-server

1. 先进入你想安装的目录（比如用户主目录，推荐）

cd ~

2. Bash 执行你的安装命令（原命令不变）

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone github.com/ggml-org/ll…
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

3. 验证编译成功（进入llama.cpp目录，检查可执行文件）

cd llama.cpp ls -l llama-cli # 能看到文件且权限为可执行（-rwxr-xr-x）则成功

下载QWEN3.5 Q4模型（国内镜像源（优先，速度快）

该版本Context只有32k不够用，已更换qwen3.5/Qwen3.5-27B-UD-Q4_K_XL.gguf（128k）

wget hf-mirror.com/unsloth/Qwe… -O ~/models/qwen3.5/Qwen3.5-35B-A3B-Q4_K_M.gguf

wget hf-mirror.com/Jackrong/Qw… -O ~/models/qwen3.5/Qwen3.5-27B-Claude-4.6-Opus-Distilled-v2-Q4_K_M.gguf

wget hf-mirror.com/unsloth/Qwe… -O ~/models/qwen3.5/Qwen3.5-27B-UD-Q4_K_XL.gguf

若下载中断，加 -c 断点续传

wget -c hf-mirror.com/unsloth/Qwe… -O ~/models/qwen3.5/Qwen3.5-35B-A3B-Q4_K_M.gguf

4. 运行

cd ~/llama.cpp

示例：运行Q4_K_M版（模型在本地路径$HOME/models/qwen3.5/）- 模型名字严格区分大小写

./llama-cli -m "$HOME/models/qwen3.5/Qwen3.5-35B-A3B-Q4_K_M.gguf" --ctx-size 16384 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --n-gpu-layers 99 --batch-size 512

其他运行方式可选（非thinking）：zhuanlan.zhihu.com/p/201037138…

--chat-template-kwargs "{"enable_thinking": false}"

也可以考虑用ollama： docs.openclaw.ai/zh-CN/provi…

本地安装QWEN3.5

唯一变化：

1. 先进入你想安装的目录（比如用户主目录，推荐）

2. Bash 执行你的安装命令（原命令不变）

3. 验证编译成功（进入llama.cpp目录，检查可执行文件）

下载QWEN3.5 Q4模型（国内镜像源（优先，速度快）

该版本Context只有32k不够用，已更换qwen3.5/Qwen3.5-27B-UD-Q4_K_XL.gguf（128k）

若下载中断，加 -c 断点续传

4. 运行

示例：运行Q4_K_M版 （模型在本地路径$HOME/models/qwen3.5/）- 模型名字严格区分大小写

示例：运行Q4_K_M版（模型在本地路径$HOME/models/qwen3.5/）- 模型名字严格区分大小写