调用本地 GPU 上的大模型,整个 AI 推理过程,全部都在本地完成。没有任何 AI API,也没有任何 Token 消耗。以前很多 AI 工具,一旦断网,直接就废了。但现在,本地 AI Agent 已经开始具备真正的离线能力。这一点,其实非常重要。因为这意味着,未来很多 AI 工作流,可能都会开始从“云端依赖”逐渐转向“本地运行”。
本地部署
1、安装 OpenAI Codex
如果你下载的是 macOS 版,注意选择 Intel / M 芯片。
2、安装新版 Ollama
目前只有最新版 Ollama 0.24 版本才完全适配 Codex,所以如果你安装的是旧版 Ollama,一定要将其升级到最新版。根据官方公告,Ollama v0.24.0 于 2026 年 5 月 15 日正式发布,Codex App 正式加入 Ollama 体系,同时围绕本地与云端模型调用、浏览器交互、代码评审以及 Apple Silicon 上的推理体验做了系统性增强。
3、下载模型
在 4B~40B 消费级显卡能跑的开源模型中,首推 Qwen3.6开源模型,因为无论是模型智力、代码编写、逻辑推理、中文理解等方面,这两款模型的综合评分都是数一数二的!
Qwen3.6 开源模型
安装命令:
ollama run qwen3.6
ollama run qwen3.6:27b
Mac 电脑上请选择 mlx 结尾的适配版:
ollama run qwen3.6:27b-mlx
ollama run qwen3.6:35b-mlx
Mac 电脑可选模型:
ollama run gemma4:e2b-mlx
ollama run gemma4:e4b-mlx
ollama run gemma4:26b-mlx
4、对接命令
ollama launch codex-app
注意:如果需要使用之前的模型,可以通过下方的命令进行恢复:
ollama launch codex-app --restore
2、llama.cpp 的启动命令
llama-server.exe ^
-m "models\Qwen3.6-27B-UD-Q5_K_XL.gguf" ^
-ngl 999 ^
-c 16384 ^
-n 2048 ^
-fa on ^
--jinja ^
--host 127.0.0.1 ^
--port 8080
里面的模型改成你自己的。
现在很多小模型已经完全可以胜任基础 AI 编程任务。
比如:
-
Qwen 系列。
-
DeepSeek Coder。
甚至一些 7B、14B 的模型,最低 6G、8G 显存,现在都已经可以跑起来了。 虽然速度肯定没办法和 4090 相比,但对于很多普通用户来说,已经足够体验“本地 AI 自动编程”这件事情了。 一个 AI Agent,已经开始逐渐具备独立完成整个流程的能力。这件事情,其实是非常恐怖的。更夸张的是,现在很多 Agent 已经不仅仅局限于代码开发。它甚至还能自动打开浏览器、自行搜索、自行浏览网页、自行下载文件,然后自动完成整个操作流程。这已经越来越像真正的 AI 助手了。而 Ollama,现在正在成为整个本地 AI 生态里非常核心的一环。以前很多人觉得,Ollama 只是一个简单的本地模型启动工具。
附录:常见问题与解决方案
❌ 问题一:ollama run qwen3.6:27b-mlx 报 500 错误
不少 Mac 用户在按照上述步骤执行 ollama run qwen3.6:27b-mlx 时,可能会遇到如下报错:
Error: 500 Internal Server Error: model requires 18.4 GiB but only 17.3 GiB are available (after 512.0 MiB overhead)
原因分析:
这个错误本质上不是软件 Bug,而是触发了 macOS 统一内存(Unified Memory)的硬性限制。 Qwen3.6-27B 模型根据量化精度的不同,对内存的需求也不同。根据 Unsloth 官方文档的数据,4-bit 量化版本需要约 18GB 内存,8-bit 版本则需要约 30GB。模型本身的参数量是固定的——约 270 亿参数,要想运行它,就必须有足够的内存来装载这些参数。mlx 版本虽然已针对 Apple Silicon 做了优化,但在内存占用上并未进行极致压缩,17.3GB 的可用内存在扣除系统服务和其他后台应用的开销后,实际能分配给模型的连续内存已经不足以支撑 27B 模型的加载。
而且,macOS 为了系统稳定性,单个进程可调用的显存上限通常被限制在物理内存的 60%-70%,当系统已占用 + 模型权重 + KV Cache 逼近物理极限时,内存分配器会拒绝申请。
解决方案如下:
✅ 方案一:换用 4-bit 量化版本
如果你的硬件内存有限,优先尝试 Qwen3.6-27B 的 4-bit 量化版本。该版本只需要约 15-18GB 内存即可运行。你可以搜索 qwen3.6:27b-mlx-4bit 这样的 Tag:
ollama run qwen3.6:27b-mlx-4bit
✅ 方案二:换用更小的模型
如果你的设备确实无法满足 27B 模型的内存需求,可以考虑使用 14B 甚至 7B 的模型。这些模型在代码生成和项目修复等任务上表现同样出色,但内存门槛大幅降低:
ollama run qwen3.6:14b-mlx
ollama run qwen3.6:7b-mlx
一个 4-bit 量化的 7B 模型大约只需要 3.5-4GB 内存,14B 模型大约需要 7-8GB。
✅ 方案三:通过 llama.cpp 加载 GGUF 量化模型
这是目前最灵活、内存利用率最高的一种方案。因为 llama.cpp 采用了更高效的内存管理机制,而且 GGUF 格式本身在量化压缩方面经过了大量的社区优化。
具体步骤:
-
下载 GGUF 格式模型:在 Hugging Face 等平台搜索并下载
Qwen3.6-27B-GGUF,推荐选择Q4_K_M或Q5_K_XL级别的量化模型。根据实测数据,Q4_K_M 量化的 27B 模型文件大小约为 15-16GB,配合合理的上下文长度设置,可以在 17GB 可用内存下稳定运行。 -
启动 llama-server 服务:
./llama-server -m /path/to/Qwen3.6-27B-UD-Q5_K_XL.gguf \
-ngl 99 \
-c 8192 \
-fa on \
--jinja \
--host 127.0.0.1 \
--port 8080
参数说明:
-
-ngl:指定加载到 GPU 的层数,值越大 GPU 参与越多,速度越快(可根据内存情况适当调低) -
-c:上下文长度,建议从 8192 开始,内存充裕时可适当调大 -
-fa:启用 Flash Attention,可显著降低 KV Cache 的内存占用 -
--jinja:启用模型的对话模板,确保模型能够正确处理 System Prompt 和多轮对话格式
- 配置 Codex 连接 llama.cpp:按上文“更强玩法”中的配置文件修改即可。
✅ 方案四:调整 Ollama 的内存相关配置
- 降低上下文窗口大小:通过环境变量限制上下文长度,可以显著降低 KV Cache 的内存占用:
export OLLAMA_CONTEXT_LENGTH=8192
ollama run qwen3.6:27b-mlx
默认的 262144(约 262K tokens)远超多数任务的实际需求,降低到 8192 可以节省数 GB 的内存。
- 限制同时加载的模型数量:
export OLLAMA_MAX_LOADED_MODELS=1
- 清理系统缓存:在进行高载荷推理前,关闭浏览器、IDE 等大型应用,或者执行
sudo purge(macOS)强制刷新系统缓存,可以为模型腾出更多可用内存。
❌ 问题二:下载好的模型突然找不到了
现象:明明已经成功 pull 了模型,但 ollama list 看不到,或者 ollama run 提示模型不存在。
原因:Ollama 0.24 版本更新后,模型存储路径和 Manifest 索引机制有所调整。此外,直接从非官方源 pull 模型往往会因为缺少 GGUF 适配而失败。 解决方案:
-
升级到最新版 Ollama:
ollama --version确认版本 ≥ 0.24.0 -
重新 pull 模型:
ollama pull qwen3.6:27b-mlx -
如果仍然失败,尝试从官方指定的镜像源下载
❌ 问题三:Ollama 下载模型缓慢
现象:ollama pull 卡住或速度极慢。
原因:国内网络访问国外 Hugging Face 等源时速度受限。
解决方案:
- 配置代理环境变量:
export HTTP_PROXY=http://127.0.0.1:7890
export HTTPS_PROXY=http://127.0.0.1:7890
ollama pull qwen3.6:27b-mlx
- 或者直接使用国内镜像源(如有)
❌ 问题四:Codex 无法连接 Ollama
现象:执行 ollama launch codex-app 后,Codex 报错无法连接或找不到模型。
原因:Ollama 服务未正常启动,或 Codex 配置的模型名称与实际模型名称不匹配。
解决方案:
-
确认 Ollama 服务正在运行:
ollama list应显示已安装的模型 -
先手动启动 Ollama 服务:
ollama serve -
确认模型已下载:
ollama run qwen3.6:27b-mlx能否正常进入对话 -
检查 Codex 配置文件中的模型名称是否与
ollama list输出完全一致
✅ 方案五:强制 CPU 模式(不推荐,仅作最后尝试)
如果实在无法加载,可以考虑禁用 GPU 加速,强制使用 CPU 运行,但代价是推理速度会显著下降:
OLLAMA_NUM_GPU=0 ollama run qwen3.6:27b-mlx
📌 经验总结
在 Mac 这种统一内存架构下,部署大模型不是简单的“下载即运行”,而是一场关于算力、内存与量化精度的博弈。理解量化(Quantization)和分层卸载(Offloading)的底层逻辑,才能真正发挥出 Apple Silicon 芯片的性能。
在实际部署前,建议先查看模型的实际内存需求:
ollama show qwen3.6:27b-mlx --modelinfo | grep size
如果模型要求的内存超出了你的可用内存,优先尝试换用量化版本或更小的模型。对于追求稳定性的用户,强烈推荐 GGUF + llama.cpp 方案,它能让你在相同硬件上运行更大的模型。