A卡也不差，手动编译llama.cpp，轻松运行Qwen3.5蒸馏Opus4.6模型（附完整实操）amd显卡用llama

一直在Hugging Face上关注Jackrong大佬用Qwen3.5-27B蒸馏的Claude Opus 4.6模型，前两天出了第三版，也就是Qwopus3.5-27B-v3。

熟悉Qwen3.5的朋友都知道，27B版本作为稠密模型，全部270亿参数推理时全激活，主打一个稳，而这款蒸馏模型更是融合了Claude Opus的优势，能力也更强了些。

💥 痛点来袭：Ollama翻车，模型类型不支持

一开始想图省事，直接用最新版Ollama部署，结果下载模式之后，就弹出“模型类型错误”的提示，升级版本、核对模型名称，折腾了大半天还是无解。

在网上查了资料才知道，Ollama对部分GGUF格式的蒸馏模型支持不够完善，这款Qwopus3.5-27B-v3，暂时无法直接适配。既然Ollama走不通，那就换条路——用llama.cpp手动部署！

🔧 破局关键：手动编译支持AMD的llama.cpp

打开llama.cpp官方仓库发现，官方默认只提供了CPU和NVIDIA显卡的Release版本，没有AMD的适配包😭。没办法，只能自己动手编译，好在步骤不算复杂，实测十几分钟就能搞定。

先给大家上完整编译命令（直接复制可用，重点注意GPU_TARGETS的设置）：

HIPCXX="$(hipconfig -l)/clang" HIP_PATH="$(hipconfig -R)" \
cmake -S . -B build -DGGML_HIP=ON -DGPU_TARGETS=gfx1100 -DCMAKE_BUILD_TYPE=Release \
&& cmake --build build --config Release -- -j 16

具体可参考：github.com/ggml-org/ll…:;)

这里有个关键细节：GPU_TARGETS需要根据自己的AMD显卡型号填写，比如我用的显卡对应gfx1100（W7900 是 RDNA3 架构，核心代号为gfx1100），不同型号对应不同的gfx代号，大家可以提前查一下自己的显卡参数。

输入命令后，系统会自动配置编译环境，开启16线程加速编译，全程不用额外操作，静静等待进度条走完就好。

📥 提速技巧：国内镜像下载模型，告别翻墙

编译完成后，下一步就是下载Qwopus3.5-27B-v3模型。这款模型托管在Hugging Face上，直接访问需要翻墙，对于国内用户来说太麻烦，这里给大家分享一个国内镜像下载方法，速度直接拉满！

下载命令如下（复制后执行，会自动将模型下载到当前文件夹）：

curl -L -C - -O "https://hf-mirror.com/Jackrong/Qwopus3.5-27B-v3-GGUF/resolve/main/Qwopus3.5-27B-v3-Q8_0.gguf"

等待下载成功，模型较大，需要等一会儿。

✨ 实测效果：如愿运行，体验不错

模型下载完成后，就可以执行编译好的程序，测试模型效果了。执行命令如下（记得将“你的模型”替换成实际的模型文件名）：

./build/bin/llama -m 你的模型

但上面的命令在我的机器上出现了一个错误，是没指定运行的显卡，出现冲突，应该使用

HIP_VISIBLE_DEVICES=0 ./build/bin/llama -m 你的模型

我还是按照老习惯，先测试了两个经典场景：

📝 七言绝句测试：模型确实会有一点“思考过度”，句子流畅度没问题，但偶尔会纠结用词，押韵，整体不影响使用；

🧮 简单计算测试：问1+1=？，这次没有多余的铺垫，回答干净利落，再也不会像之前的Qwen3.5那样死循环，速度也还不错。

💡 最后小贴士

编译前确保安装了ROCm环境和hipconfig工具，这是AMD GPU编译llama.cpp的基础，缺少的话会报错。可参考ROCm官方教程安装：

https://rocm.docs.amd.com/projects/install-on-linux/en/latest/install/quick-start.html#rocm-install-quick

或者查看我之前的文章AMD显卡搭建Ubuntu+Ollama+OpenClaw实战，便宜也不差，可先收藏

模型下载建议用镜像，除了文中的方法，也可以设置HF_ENDPOINT环境变量：

export HF_ENDPOINT=https://hf-mirror.com

不同AMD显卡的GPU_TARGETS参数不同，不确定的话可以查显卡的架构型号，避免因参数错误导致编译失败或者编译出来的程序不好用。

总的来说，虽然过程比用Ollama繁琐一点，但成功运行Qwopus3.5-27B-v3的那一刻，值了。感觉也比ollama快一些。对于AMD显卡用户来说，手动编译llama.cpp确实是目前部署这类GGUF格式模型的最优解，感兴趣的朋友可以跟着实操一波，亲测可行！有问题评论区随时交流。也可以关注老孙的公众号。