A卡也不差,手动编译llama.cpp,轻松运行Qwen3.5蒸馏Opus4.6模型(附完整实操)

0 阅读4分钟

一直在Hugging Face上关注Jackrong大佬用Qwen3.5-27B蒸馏的Claude Opus 4.6模型,前两天出了第三版,也就是Qwopus3.5-27B-v3。

熟悉Qwen3.5的朋友都知道,27B版本作为稠密模型,全部270亿参数推理时全激活,主打一个稳,而这款蒸馏模型更是融合了Claude Opus的优势,能力也更强了些。

💥 痛点来袭:Ollama翻车,模型类型不支持

一开始想图省事,直接用最新版Ollama部署,结果下载模式之后,就弹出“模型类型错误”的提示,升级版本、核对模型名称,折腾了大半天还是无解。

在网上查了资料才知道,Ollama对部分GGUF格式的蒸馏模型支持不够完善,这款Qwopus3.5-27B-v3,暂时无法直接适配。既然Ollama走不通,那就换条路——用llama.cpp手动部署!

🔧 破局关键:手动编译支持AMD的llama.cpp

打开llama.cpp官方仓库发现,官方默认只提供了CPU和NVIDIA显卡的Release版本,没有AMD的适配包😭。没办法,只能自己动手编译,好在步骤不算复杂,实测十几分钟就能搞定。

先给大家上完整编译命令(直接复制可用,重点注意GPU_TARGETS的设置):

HIPCXX="$(hipconfig -l)/clang" HIP_PATH="$(hipconfig -R)" \
cmake -S . -B build -DGGML_HIP=ON -DGPU_TARGETS=gfx1100 -DCMAKE_BUILD_TYPE=Release \
&& cmake --build build --config Release -- -j 16

具体可参考:github.com/ggml-org/ll…:;)

这里有个关键细节:GPU_TARGETS需要根据自己的AMD显卡型号填写,比如我用的显卡对应gfx1100(W7900 是 RDNA3 架构,核心代号为gfx1100),不同型号对应不同的gfx代号,大家可以提前查一下自己的显卡参数。

输入命令后,系统会自动配置编译环境,开启16线程加速编译,全程不用额外操作,静静等待进度条走完就好。

📥 提速技巧:国内镜像下载模型,告别翻墙

编译完成后,下一步就是下载Qwopus3.5-27B-v3模型。这款模型托管在Hugging Face上,直接访问需要翻墙,对于国内用户来说太麻烦,这里给大家分享一个国内镜像下载方法,速度直接拉满!

下载命令如下(复制后执行,会自动将模型下载到当前文件夹):

curl -L -C - -O "https://hf-mirror.com/Jackrong/Qwopus3.5-27B-v3-GGUF/resolve/main/Qwopus3.5-27B-v3-Q8_0.gguf"

等待下载成功,模型较大,需要等一会儿。

✨ 实测效果:如愿运行,体验不错

模型下载完成后,就可以执行编译好的程序,测试模型效果了。执行命令如下(记得将“你的模型”替换成实际的模型文件名):

./build/bin/llama -m 你的模型

但上面的命令在我的机器上出现了一个错误,是没指定运行的显卡,出现冲突,应该使用

HIP_VISIBLE_DEVICES=0 ./build/bin/llama -m 你的模型

我还是按照老习惯,先测试了两个经典场景:

📝 七言绝句测试:模型确实会有一点“思考过度”,句子流畅度没问题,但偶尔会纠结用词,押韵,整体不影响使用;

🧮 简单计算测试:问1+1=?,这次没有多余的铺垫,回答干净利落,再也不会像之前的Qwen3.5那样死循环,速度也还不错。

💡 最后小贴士

编译前确保安装了ROCm环境和hipconfig工具,这是AMD GPU编译llama.cpp的基础,缺少的话会报错。可参考ROCm官方教程安装:

https://rocm.docs.amd.com/projects/install-on-linux/en/latest/install/quick-start.html#rocm-install-quick

或者查看我之前的文章AMD显卡搭建Ubuntu+Ollama+OpenClaw实战,便宜也不差,可先收藏

模型下载建议用镜像,除了文中的方法,也可以设置HF_ENDPOINT环境变量:

export HF_ENDPOINT=https://hf-mirror.com

不同AMD显卡的GPU_TARGETS参数不同,不确定的话可以查显卡的架构型号,避免因参数错误导致编译失败或者编译出来的程序不好用。

总的来说,虽然过程比用Ollama繁琐一点,但成功运行Qwopus3.5-27B-v3的那一刻,值了。感觉也比ollama快一些。对于AMD显卡用户来说,手动编译llama.cpp确实是目前部署这类GGUF格式模型的最优解,感兴趣的朋友可以跟着实操一波,亲测可行!有问题评论区随时交流。也可以关注老孙的公众号。

73e90584142c7ceb91c27a01b5694b74.jpg