2026 年最强编程神器 Codex,接入本地大模型免费运行,苹果用户狂喜
我用了三个月 Codex,真心觉得它是 2026 年最值得买的编程工具,没有之一。
它不像 ChatGPT 只是个"问答机器人"——Codex 是一个完整的自主智能体。你给它一个需求,它能自己读代码、写代码、跑测试、修 bug,全程不需要你插手。我有个项目,以前要写两天,现在跟 Codex 说一声,半小时搞定。
更恐怖的是它的多智能体模式:你可以让它同时派好几个"分身"去干不同的活——一个查文档,一个写代码,一个做 Code Review。6 个线程并发跑,比我带三个实习生还高效。
但 OpenAI 的定价策略让人窒息:Plus 版 200/月(约 1400 人民币)才能无限制使用。对于国内开发者,还要额外解决网络问题——api.openai.com 在国内直连基本靠运气。
第三方中转站虽然便宜,但总有跑路风险,而且你的代码和对话数据全部经过第三方服务器——写核心业务逻辑的时候把源码发给别人,你睡得着吗?
有没有一种方案,既不用花钱订阅,又不需要把代码发给第三方,还能完美运行 Codex?
有。而且对苹果 Silicon 用户来说,体验好到飞起。
答案就是:本地大模型 + Codex。完全免费、完全离线、完全私密。
下面直接上教程,10 分钟搞定。
一、为什么本地大模型能用在 Codex 上?
核心原理和接第三方 API 一模一样:Codex 只认 OpenAI 格式的 API 接口。
不管后端是 OpenAI 的 GPT-5、第三方中转站、还是你 Mac 本地跑的大模型,只要 API 请求和响应的 JSON 格式兼容,Codex 根本分不清区别。
你的请求流程对比:
Codex App → api.openai.com → OpenAI 服务器 (官方,$200/月)
Codex App → 中转站地址 → OpenAI 服务器 (中转,便宜但有风险)
Codex App → localhost:8000 → 你的 Mac 本地模型 (本地,免费+私密)
Codex 的配置文件 config.toml 里有一个参数叫 openai_base_url,设置之后,所有请求就会发到你指定的地址。
把它指向 http://localhost:8000/v1,Codex 就会和你 Mac 本地跑的大模型通信。零延迟、零费用、零隐私泄露。
二、前置条件
你需要满足两个条件:
-
一台苹果 Silicon 芯片的 Mac(M1/M2/M3/M4 系列)
- 推荐 24GB 以上内存(16GB 只能跑 7B-14B 模型,8GB 体验较差)
- Codex 本身也要占内存,所以 8GB 基本不够玩
- 如果内存不足,也可以考虑第三方 API 中转站方案,充 20 块用 GPT-5,对硬件零要求
-
已安装 Codex App(桌面版,不是网页版)
如果你的 Mac 满足条件,那恭喜你——你手里已经有一台"AI 编程超级计算机"了,只是还没激活。
三、选择本地大模型推理工具
苹果 Silicon 用户有三个主流选择,按推荐程度排序:
方案 1:MLX(omlx)—— 苹果原生,性能最强 ⭐ 推荐
MLX 是苹果官方推出的机器学习框架,专为 Apple Silicon 优化。omlx 是基于 MLX 的模型推理服务器,提供完全兼容 OpenAI 的 API 接口。
优点:
- 苹果官方框架,GPU 加速效率最高
- 支持 4bit/8bit 量化,24GB 内存流畅运行 27B 级别模型
- 开箱即用,
pip install后一条命令启动
安装:
pip install omlx
omlx serve
启动后默认在 http://localhost:8000 提供 API 服务。
omlx 内置了模型下载管理,首次启动会自动拉取默认模型(Qwen3.6-27B-4bit,约 14GB)。
方案 2:Ollama —— 跨平台,生态最丰富
Ollama 是目前最流行的本地大模型运行工具,支持 Mac/Windows/Linux。
优点:
- 模型库最丰富,
ollama pull一键下载 - 社区活跃,文档完善
- 跨平台,Windows 用户也能用
安装:
# Mac 上可以用 Homebrew
brew install ollama
ollama serve # 启动服务,默认端口 11434
ollama pull qwen3.6 # 下载模型
Ollama 默认端口是 11434,配置 Codex 时注意改端口号。
方案 3:LMStudio —— 图形界面,最友好
LMStudio 提供完整的 GUI 界面,适合不想碰命令行的用户。
优点:
- 图形界面管理模型,下载、加载、卸载一目了然
- 内置本地 Chat 界面,可以先体验模型效果
- 一键启动本地 API 服务器
安装:前往 LMStudio 官网下载安装,启动后点击左侧"Local API Server"即可。
四、手把手配置 Codex
不管你选上面哪个工具,配置 Codex 的步骤完全一样——只需要改两个文件。
第 1 步:找到 Codex 配置目录
Codex 的所有配置文件都藏在用户主目录下的 .codex 文件夹里:
| 系统 | 路径 |
|---|---|
| macOS | /Users/你的用户名/.codex |
| Windows | C:\Users\你的用户名.codex |
macOS 用户在终端输入 ls ~/.codex 就能看到。如果文件夹不存在,先启动一次 Codex App 就会自动创建。
第 2 步:配置 API Key
在 .codex 目录下找到 auth.json(没有就新建一个),写入以下内容:
{
"auth_mode": "apikey",
"OPENAI_API_KEY": "你的本地模型API-Key"
}
不同工具的 API Key 不同:
| 工具 | API Key |
|---|---|
| omlx | omlx-2026-qwen36(默认 key,可在 ~/.omlx/settings.json 查看) |
| Ollama | ollama(固定值,Ollama 的 key 永远是这个) |
| LMStudio | 留空即可,或填任意字符串 |
⚠️ 重点:
auth_mode必须设为"apikey"。这是告诉 Codex"用 API Key 认证,别弹 ChatGPT 登录窗口了"。
第 3 步:配置本地模型地址(关键一步)
在 .codex 目录下找到 config.toml(没有就新建一个),在文件最前面加上这些配置:
以 omlx 为例:
model = "Qwen3.6-27B-4bit"
model_reasoning_effort = "high"
openai_base_url = "http://localhost:8000/v1"
以 Ollama 为例:
model = "qwen3.6"
model_reasoning_effort = "high"
openai_base_url = "http://localhost:11434/v1"
以 LMStudio 为例:
model = "你加载的模型名称"
model_reasoning_effort = "high"
openai_base_url = "http://127.0.0.1:1234/v1"
注意几个细节:
model必须填你在本地工具中实际可用的模型名称(在 omlx/Ollama 后台查看)openai_base_url必须放在文件顶层,不能放在任何[section]块里面- URL 末尾必须带
/v1,少一个斜杠都不行 - 本地服务用
http://就行,不需要https://
完整配置示例(omlx):
model = "Qwen3.6-27B-4bit"
model_reasoning_effort = "high"
openai_base_url = "http://localhost:8000/v1"
[projects."/Users/tianxi"]
trust_level = "trusted"
# ... 其他配置保持不变
改完保存,就三行配置的事。
第 4 步:重启 Codex
这一步很多人会踩坑:
- 确保本地模型服务正在运行(终端里 omlx/Ollama 的窗口别关)
- 完全退出 Codex App。macOS 用户按
Cmd+Q,确保 Dock 栏里没有 Codex 图标。只是关窗口不行,必须彻底退出。 - 重新启动 Codex App。
- 新建一个会话,发一条消息试试。
如果正常收到回复,恭喜你——Codex 已经接入了你的本地大模型,从此免费无限用🎉
第 5 步:验证(可选)
如果你不确定配置对不对,可以在终端里先用 curl 测试一下本地服务是否可达:
omlx:
curl -s http://localhost:8000/v1/models \
-H "Authorization: Bearer omlx-2026-qwen36" | python3 -m json.tool
Ollama:
curl -s http://localhost:11434/v1/models \
-H "Authorization: Bearer ollama" | python3 -m json.tool
如果输出了模型列表,说明 Key 和地址都没问题。如果 Codex 里还是报错,那大概率是配置格式写错了,回去检查第 3 步。
💡 如果你发现本地模型响应太慢或者能力不够,别死磕——换第三方 API 中转站只要改一行配置。
五、本地大模型 vs GPT-5:真实差距有多大?
说几句大实话。
Qwen3.6-27B 级别的本地模型,在代码生成任务上能达到 GPT-4o 约 80-85% 的水平。 日常写 CRUD、改 bug、写脚本、做简单的重构,完全够用。
差距主要体现在:
- 复杂架构设计:GPT-5 能更好地理解大型项目的整体架构,本地模型偶尔会"管中窥豹"
- 多轮对话一致性:上下文超长的时候,本地模型可能遗忘前面的约束
- 代码审查深度:GPT-5 能发现更隐蔽的 bug 和安全问题
但反过来想:85% 的能力,0 元/月,vs 100% 的能力,1400 元/月。对于大多数开发者日常的使用场景,本地模型性价比碾压官方订阅。
而且——它是免费的,你可以无限试用,不心疼。 写废了重来就行,没有额度焦虑。
六、常见问题
Q1:16GB 内存够用吗?
说句大实话:16GB 跑 27B 级别模型体验非常糟糕。 Qwen3.6-27B-4bit 量化后约 14GB,macOS 系统本身要占 4-6GB,Codex App 还要占 1-2GB——16GB 的机器跑这个模型,内存根本不够,系统会疯狂 swap(用硬盘当内存),响应慢到怀疑人生。
实际建议:
| 内存 | 推荐模型 | 体验 |
|---|---|---|
| 8GB | 7B 级别(如 Qwen2.5-7B) | 基础编码辅助可用,能力有限 |
| 16GB | 7B-14B 级别 | 日常写代码够用,性价比之选 |
| 24GB+ | 27B 级别(如 Qwen3.6-27B-4bit) | 流畅体验,推荐 |
| 32GB+ | 27B 级别 + 更大上下文 | 最佳体验 |
如果你是 16GB 内存,建议用 Ollama 跑一个 7B 或 14B 的模型,比如 ollama pull qwen2.5:7b。能力不如 27B,但胜在流畅不卡。
Q2:改了配置不生效?
90% 的原因是 openai_base_url 写错了位置。它必须在文件最顶层,不能放在任何 [section] 块里面。
另外,改完配置后必须完全退出 App 再重启(Cmd+Q),只是关窗口是不行的。Codex 只在启动时读取一次配置。
还要确认本地模型服务确实在运行——终端里 omlx/Ollama 的进程别关了。
Q3:仍然报 401 Unauthorized?
- 检查 API Key 有没有多余的空格或换行(复制粘贴时容易带进去)
- omlx 用户检查
~/.omlx/settings.json里的 API key 设置 - Ollama 用户确认 key 是
ollama(小写) - 用上面的 curl 命令直接测试,确认 key 本身有效
Q4:想切回官方订阅或第三方中转站怎么办?
切回官方订阅:编辑 config.toml,把 openai_base_url 这一行删掉或者注释掉(前面加 #):
# openai_base_url = "http://localhost:8000/v1"
然后编辑 auth.json,把 auth_mode 改回 "chatgpt":
{
"auth_mode": "chatgpt"
}
重启 Codex,会弹出 ChatGPT 登录窗口,正常扫码登录即可。
Q5:本地模型响应慢怎么办?
- 确保模型已经完整加载到内存中(首次请求会慢,后续会变快)
- 关闭其他占用 GPU 的应用(比如视频编辑软件)
- 尝试换更小的模型(7B 级别响应更快)
- omlx 用户可以调整
model_settings.json中的上下文窗口大小,减小上下文能提升速度
Q6:Windows 用户能用吗?
能,但选择少一些。推荐 Ollama(完美支持 Windows)或 LMStudio。Windows 跑本地模型需要 NVIDIA GPU + 足够显存,体验不如 Mac 丝滑,但功能完全一样。
七、本地大模型 vs 第三方中转站:怎么选?
| 维度 | 本地大模型 | 第三方中转站 | 官方订阅 |
|---|---|---|---|
| 费用 | 免费(硬件已购) | 约 20 元/月 | 1400 元/月 |
| 模型能力 | GPT-4o 的 80-85% | 接近 GPT-5 | GPT-5 完整能力 |
| 隐私安全 | ⭐⭐⭐⭐⭐ 数据不出本机 | ⭐⭐ 经过第三方 | ⭐⭐⭐ OpenAI 有数据政策 |
| 网络要求 | 无需联网 | 需要网络 | 需要科学上网 |
| 硬件要求 | Mac 24GB+ / 独显 PC | 无 | 无 |
| 稳定性 | 取决于本机性能 | 取决于中转站 | 最稳定 |
我的建议:
- 日常写代码、改 bug、写脚本 → 本地大模型,性价比之王
- 复杂项目、需要最强能力 → 第三方 API 中转站或官方订阅,GPT-5 能力碾压本地模型
- 敏感项目、对隐私要求极高 → 无脑本地大模型,别犹豫
- Mac 内存不足 24GB → 第三方 API 中转站,充 20 块钱享受 GPT-5,对硬件零要求
其实三者不冲突——Codex 切换配置只要改一行,你可以日常用本地模型,关键时刻切中转站或官方,灵活搭配。中转站配置和本文的方法完全一样,只是把地址从 localhost 换成中转站 URL。
最后说两句
Codex 是目前我最离不开的编程工具,没有之一。它让编程的门槛降到了一个前所未有的高度——你不需要记住每一个 API 的用法,不需要查文档,不需要 Debug 到凌晨两点。你只需要清楚地描述你的需求,剩下的交给 Codex。
而本地大模型,让这款工具变得真正自由。不用订阅、不用联网、不用担心数据泄露。你的代码只在你自己的电脑上运行,你的想法只在你自己的机器上处理。
对于苹果 Silicon 用户来说,这几乎是白嫖——你买 Mac 的时候,这台"AI 编程计算机"就已经在里面了。
自由 + 免费 + 私密。还要什么自行车?
你在用哪个本地大模型工具?omlx、Ollama 还是 LMStudio?配置过程中遇到什么问题?欢迎在评论区留言交流。
如果觉得这篇文章帮到了你,欢迎点赞 + 关注,后续会持续更新 Codex 相关的进阶教程。