Windows编译llama.cpp

45 阅读2分钟

1. 安装msys2

我们一般都是在linux上开发程序,linux有很多的命令,例如ls,grep,echo等等,这些程序在windows都是没有的,msys2你可以认为就是一个小型的linux命令软件,它将linux的这些命令在windows上进行了重写,从用户角度看就像是在linux上开发的一样。可以认为msys2是Windows 上的 “轻量级 Linux 开发工具箱”。

www.msys2.org/

官网是从github上下载的,速度比较慢,国内可以通过清华镜像下载

mirrors.tuna.tsinghua.edu.cn/msys2/distr…

mirrors.tuna.tsinghua.edu.cn/msys2/distr…

我的系统是win10的,安装完成后打开MSYS2 UCRT64的窗口,然后修改pacman的镜像源,或者直接手动编辑文件也行

sed -i "s#https\?://mirror.msys2.org/#https://mirrors.tuna.tsinghua.edu.cn/msys2/#g" /etc/pacman.d/mirrorlist*

pacman是软件包管理的一个命令,与linux上的apt或者yum这些软件包管理命令并列。后续的一些软件,比如gcc,camke,git等都通过pacman进行下载安装,非常的方便。

2. 安装软件

pacman -S automake autoconf libtool m4 make patch pkg-config
pacman -S mingw-w64-ucrt-x86_64-gcc
pacman -S mingw-w64-ucrt-x86_64-cmake
pacman -S git
pacman -S mingw-w64-ucrt-x86_64-rust

3. 编译llama.cpp

3.1 编译源码

# git config --global http.sslVerify false
git clone https://github.com/ggml-org/llama.cpp.git
# git clone https://gitclone.com/github.com/ggerganov/llama.cpp
cd llama.cpp
# cmake -B build -G "MinGW Makefiles" -DLLAMA_CURL=OFF -DGGML_CUDA=OFF
cmake -B build -DLLAMA_CURL=OFF -DGGML_CUDA=OFF
cmake --build build -j$nproc

我都笔记本带了一个MAX250的GPU,编译的时候开启CUDA-DCMAKE_CUDA_ARCHITECTURES=61,它针对MX250的架构进行优化

cmake -B build -GGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=61
cmake --build build --config Release -j

3.2 hf转成gguf格式

cd llama.cpp
# python convert_hf_to_gguf.py Qwen\Qwen3-0___6B --outtype f16 --verbose --outfile Qwen\Qwen3_6B_f16.gguf
python convert_hf_to_gguf.py Qwen\Qwen3-0___6B

也可以进行量化后使用

build\bin\llama-quantize.exe Qwen\Qwen3_6B_f16.gguf Qwen\Qwen3_6B_q4_k_m.gguf q4_k_m

3.3 启动服务

build\bin\llama-server.exe -m <modelPath> --host 0.0.0.0 --port 8080
build\bin\llama-server.exe -m Qwen3_6B_q4_k_m.gguf --host 0.0.0.0 --port 8080