本地安装QWEN3.5

117 阅读1分钟

cd ~/llama.cpp && ./llama-server -m "$HOME/models/qwen3.5/Qwen3.5-35B-A3B-Q4_K_M.gguf" --ctx-size 32768 --n-gpu-layers 99 --batch-size 1024 --host 0.0.0.0 --port 8080 --chat-template-kwargs "{"enable_thinking": false}"

不想调模型,可以本地安装大模型:QWEN3.5_35B-A3B-Q4_K_M:

新版llama.cpp(重新安装)(命令中路径有变化):

cd ~/llama.cpp && ./build/bin/llama-server -m "$HOME/models/gemma4/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf" --ctx-size 65536 --n-gpu-layers 99 --batch-size 512 --host 0.0.0.0 --port 8080 --reasoning off

唯一变化:

  • 旧:./llama-server
  • 新:./build/bin/llama-server

1. 先进入你想安装的目录(比如用户主目录,推荐)

cd ~

2. Bash 执行你的安装命令(原命令不变)

  • apt-get update
  • apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
  • git clone github.com/ggml-org/ll…
  • cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
  • cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
  • cp llama.cpp/build/bin/llama-* llama.cpp

3. 验证编译成功(进入llama.cpp目录,检查可执行文件)

cd llama.cpp ls -l llama-cli # 能看到文件且权限为可执行(-rwxr-xr-x)则成功

下载QWEN3.5 Q4模型(国内镜像源(优先,速度快)

该版本Context只有32k不够用,已更换qwen3.5/Qwen3.5-27B-UD-Q4_K_XL.gguf(128k)

wget hf-mirror.com/unsloth/Qwe… -O ~/models/qwen3.5/Qwen3.5-35B-A3B-Q4_K_M.gguf

wget hf-mirror.com/Jackrong/Qw… -O ~/models/qwen3.5/Qwen3.5-27B-Claude-4.6-Opus-Distilled-v2-Q4_K_M.gguf

wget hf-mirror.com/unsloth/Qwe… -O ~/models/qwen3.5/Qwen3.5-27B-UD-Q4_K_XL.gguf

若下载中断,加 -c 断点续传

wget -c hf-mirror.com/unsloth/Qwe… -O ~/models/qwen3.5/Qwen3.5-35B-A3B-Q4_K_M.gguf

4. 运行

cd ~/llama.cpp

示例:运行Q4_K_M版 (模型在本地路径$HOME/models/qwen3.5/)- 模型名字严格区分大小写

./llama-cli -m "$HOME/models/qwen3.5/Qwen3.5-35B-A3B-Q4_K_M.gguf" --ctx-size 16384 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --n-gpu-layers 99 --batch-size 512

--chat-template-kwargs "{"enable_thinking": false}"

image.png