2026 年最强编程神器 Codex,接入本地大模型免费运行,苹果用户狂喜

0 阅读12分钟

2026 年最强编程神器 Codex,接入本地大模型免费运行,苹果用户狂喜

发布时间:2026-05-12
标签:#AI编程 #Codex #本地大模型 #MLX #免费使用 #开发者工具


page_001_img_001_Im1.png

我用了三个月 Codex,真心觉得它是 2026 年最值得买的编程工具,没有之一。

它不像 ChatGPT 只是个"问答机器人"——Codex 是一个完整的自主智能体。你给它一个需求,它能自己读代码、写代码、跑测试、修 bug,全程不需要你插手。我有个项目,以前要写两天,现在跟 Codex 说一声,半小时搞定。
page_002_img_002_Im1.png

更恐怖的是它的多智能体模式:你可以让它同时派好几个"分身"去干不同的活——一个查文档,一个写代码,一个做 Code Review。6 个线程并发跑,比我带三个实习生还高效。

但 OpenAI 的定价策略让人窒息:Plus 版 20/月有严格的额度限制,写两个中等项目就超标了;Pro20/月有严格的额度限制,写两个中等项目就超标了;Pro 版 200/月(约 1400 人民币)才能无限制使用。对于国内开发者,还要额外解决网络问题——api.openai.com 在国内直连基本靠运气。

page_003_img_003_Im1.png

第三方中转站虽然便宜,但总有跑路风险,而且你的代码和对话数据全部经过第三方服务器——写核心业务逻辑的时候把源码发给别人,你睡得着吗?

有没有一种方案,既不用花钱订阅,又不需要把代码发给第三方,还能完美运行 Codex?

有。而且对苹果 Silicon 用户来说,体验好到飞起。

答案就是:本地大模型 + Codex。完全免费、完全离线、完全私密。

下面直接上教程,10 分钟搞定。


一、为什么本地大模型能用在 Codex 上?

page_004_img_004_Im1.png

核心原理和接第三方 API 一模一样:Codex 只认 OpenAI 格式的 API 接口。

不管后端是 OpenAI 的 GPT-5、第三方中转站、还是你 Mac 本地跑的大模型,只要 API 请求和响应的 JSON 格式兼容,Codex 根本分不清区别。

你的请求流程对比:

Codex App → api.openai.com → OpenAI 服务器          (官方,$200/月)
Codex App → 中转站地址 → OpenAI 服务器              (中转,便宜但有风险)
Codex App → localhost:8000 → 你的 Mac 本地模型       (本地,免费+私密)

Codex 的配置文件 config.toml 里有一个参数叫 openai_base_url,设置之后,所有请求就会发到你指定的地址。

把它指向 http://localhost:8000/v1,Codex 就会和你 Mac 本地跑的大模型通信。零延迟、零费用、零隐私泄露。


二、前置条件

page_005_img_005_Im1.png

你需要满足两个条件:

  1. 一台苹果 Silicon 芯片的 Mac(M1/M2/M3/M4 系列)

    • 推荐 24GB 以上内存(16GB 只能跑 7B-14B 模型,8GB 体验较差)
    • Codex 本身也要占内存,所以 8GB 基本不够玩
    • 如果内存不足,也可以考虑第三方 API 中转站方案,充 20 块用 GPT-5,对硬件零要求
  2. 已安装 Codex App(桌面版,不是网页版)

如果你的 Mac 满足条件,那恭喜你——你手里已经有一台"AI 编程超级计算机"了,只是还没激活。


三、选择本地大模型推理工具

page_006_img_006_Im1.png

苹果 Silicon 用户有三个主流选择,按推荐程度排序:

方案 1:MLX(omlx)—— 苹果原生,性能最强 ⭐ 推荐

MLX 是苹果官方推出的机器学习框架,专为 Apple Silicon 优化。omlx 是基于 MLX 的模型推理服务器,提供完全兼容 OpenAI 的 API 接口。

优点

  • 苹果官方框架,GPU 加速效率最高
  • 支持 4bit/8bit 量化,24GB 内存流畅运行 27B 级别模型
  • 开箱即用,pip install 后一条命令启动

安装

pip install omlx
omlx serve

启动后默认在 http://localhost:8000 提供 API 服务。

omlx 内置了模型下载管理,首次启动会自动拉取默认模型(Qwen3.6-27B-4bit,约 14GB)。

方案 2:Ollama —— 跨平台,生态最丰富

Ollama 是目前最流行的本地大模型运行工具,支持 Mac/Windows/Linux。

优点

  • 模型库最丰富,ollama pull 一键下载
  • 社区活跃,文档完善
  • 跨平台,Windows 用户也能用

安装

# Mac 上可以用 Homebrew
brew install ollama
ollama serve          # 启动服务,默认端口 11434
ollama pull qwen3.6   # 下载模型

Ollama 默认端口是 11434,配置 Codex 时注意改端口号。

方案 3:LMStudio —— 图形界面,最友好

LMStudio 提供完整的 GUI 界面,适合不想碰命令行的用户。

优点

  • 图形界面管理模型,下载、加载、卸载一目了然
  • 内置本地 Chat 界面,可以先体验模型效果
  • 一键启动本地 API 服务器

安装:前往 LMStudio 官网下载安装,启动后点击左侧"Local API Server"即可。


四、手把手配置 Codex

page_007_img_007_Im1.png

不管你选上面哪个工具,配置 Codex 的步骤完全一样——只需要改两个文件。

第 1 步:找到 Codex 配置目录

Codex 的所有配置文件都藏在用户主目录下的 .codex 文件夹里:

系统路径
macOS/Users/你的用户名/.codex
WindowsC:\Users\你的用户名.codex

macOS 用户在终端输入 ls ~/.codex 就能看到。如果文件夹不存在,先启动一次 Codex App 就会自动创建。


第 2 步:配置 API Key

在 .codex 目录下找到 auth.json(没有就新建一个),写入以下内容:

{
  "auth_mode": "apikey",
  "OPENAI_API_KEY": "你的本地模型API-Key"
}

不同工具的 API Key 不同:

工具API Key
omlxomlx-2026-qwen36(默认 key,可在 ~/.omlx/settings.json 查看)
Ollamaollama(固定值,Ollama 的 key 永远是这个)
LMStudio留空即可,或填任意字符串

⚠️ 重点auth_mode 必须设为 "apikey"。这是告诉 Codex"用 API Key 认证,别弹 ChatGPT 登录窗口了"。


第 3 步:配置本地模型地址(关键一步)

page_008_img_008_Im1.png

在 .codex 目录下找到 config.toml(没有就新建一个),在文件最前面加上这些配置:

以 omlx 为例

model = "Qwen3.6-27B-4bit"
model_reasoning_effort = "high"
openai_base_url = "http://localhost:8000/v1"

以 Ollama 为例

model = "qwen3.6"
model_reasoning_effort = "high"
openai_base_url = "http://localhost:11434/v1"

以 LMStudio 为例

model = "你加载的模型名称"
model_reasoning_effort = "high"
openai_base_url = "http://127.0.0.1:1234/v1"

注意几个细节:

  • model 必须填你在本地工具中实际可用的模型名称(在 omlx/Ollama 后台查看)
  • openai_base_url 必须放在文件顶层,不能放在任何 [section] 块里面
  • URL 末尾必须带 /v1,少一个斜杠都不行
  • 本地服务用 http:// 就行,不需要 https://

完整配置示例(omlx):

model = "Qwen3.6-27B-4bit"
model_reasoning_effort = "high"
openai_base_url = "http://localhost:8000/v1"

[projects."/Users/tianxi"]
trust_level = "trusted"

# ... 其他配置保持不变

改完保存,就三行配置的事。


第 4 步:重启 Codex

这一步很多人会踩坑:

  1. 确保本地模型服务正在运行(终端里 omlx/Ollama 的窗口别关)
  2. 完全退出 Codex App。macOS 用户按 Cmd+Q,确保 Dock 栏里没有 Codex 图标。只是关窗口不行,必须彻底退出。
  3. 重新启动 Codex App。
  4. 新建一个会话,发一条消息试试。

如果正常收到回复,恭喜你——Codex 已经接入了你的本地大模型,从此免费无限用🎉


第 5 步:验证(可选)

如果你不确定配置对不对,可以在终端里先用 curl 测试一下本地服务是否可达:

omlx

curl -s http://localhost:8000/v1/models \
  -H "Authorization: Bearer omlx-2026-qwen36" | python3 -m json.tool

Ollama

curl -s http://localhost:11434/v1/models \
  -H "Authorization: Bearer ollama" | python3 -m json.tool

如果输出了模型列表,说明 Key 和地址都没问题。如果 Codex 里还是报错,那大概率是配置格式写错了,回去检查第 3 步。

💡 如果你发现本地模型响应太慢或者能力不够,别死磕——换第三方 API 中转站只要改一行配置。


五、本地大模型 vs GPT-5:真实差距有多大?

说几句大实话。

Qwen3.6-27B 级别的本地模型,在代码生成任务上能达到 GPT-4o 约 80-85% 的水平。  日常写 CRUD、改 bug、写脚本、做简单的重构,完全够用。

差距主要体现在:

  • 复杂架构设计:GPT-5 能更好地理解大型项目的整体架构,本地模型偶尔会"管中窥豹"
  • 多轮对话一致性:上下文超长的时候,本地模型可能遗忘前面的约束
  • 代码审查深度:GPT-5 能发现更隐蔽的 bug 和安全问题

但反过来想:85% 的能力,0 元/月,vs 100% 的能力,1400 元/月。对于大多数开发者日常的使用场景,本地模型性价比碾压官方订阅。

而且——它是免费的,你可以无限试用,不心疼。  写废了重来就行,没有额度焦虑。


六、常见问题

Q1:16GB 内存够用吗?

page_010_img_010_Im1.png

说句大实话:16GB 跑 27B 级别模型体验非常糟糕。  Qwen3.6-27B-4bit 量化后约 14GB,macOS 系统本身要占 4-6GB,Codex App 还要占 1-2GB——16GB 的机器跑这个模型,内存根本不够,系统会疯狂 swap(用硬盘当内存),响应慢到怀疑人生。

实际建议

内存推荐模型体验
8GB7B 级别(如 Qwen2.5-7B)基础编码辅助可用,能力有限
16GB7B-14B 级别日常写代码够用,性价比之选
24GB+27B 级别(如 Qwen3.6-27B-4bit)流畅体验,推荐
32GB+27B 级别 + 更大上下文最佳体验

如果你是 16GB 内存,建议用 Ollama 跑一个 7B 或 14B 的模型,比如 ollama pull qwen2.5:7b。能力不如 27B,但胜在流畅不卡。

Q2:改了配置不生效?

page_011_img_011_Im1.png

90% 的原因是 openai_base_url 写错了位置。它必须在文件最顶层,不能放在任何 [section] 块里面。

另外,改完配置后必须完全退出 App 再重启(Cmd+Q),只是关窗口是不行的。Codex 只在启动时读取一次配置。

还要确认本地模型服务确实在运行——终端里 omlx/Ollama 的进程别关了。

Q3:仍然报 401 Unauthorized?

  • 检查 API Key 有没有多余的空格或换行(复制粘贴时容易带进去)
  • omlx 用户检查 ~/.omlx/settings.json 里的 API key 设置
  • Ollama 用户确认 key 是 ollama(小写)
  • 用上面的 curl 命令直接测试,确认 key 本身有效

Q4:想切回官方订阅或第三方中转站怎么办?

切回官方订阅:编辑 config.toml,把 openai_base_url 这一行删掉或者注释掉(前面加 #):

# openai_base_url = "http://localhost:8000/v1"

然后编辑 auth.json,把 auth_mode 改回 "chatgpt"

{
  "auth_mode": "chatgpt"
}

重启 Codex,会弹出 ChatGPT 登录窗口,正常扫码登录即可。

Q5:本地模型响应慢怎么办?

  • 确保模型已经完整加载到内存中(首次请求会慢,后续会变快)
  • 关闭其他占用 GPU 的应用(比如视频编辑软件)
  • 尝试换更小的模型(7B 级别响应更快)
  • omlx 用户可以调整 model_settings.json 中的上下文窗口大小,减小上下文能提升速度

Q6:Windows 用户能用吗?

能,但选择少一些。推荐 Ollama(完美支持 Windows)或 LMStudio。Windows 跑本地模型需要 NVIDIA GPU + 足够显存,体验不如 Mac 丝滑,但功能完全一样。


七、本地大模型 vs 第三方中转站:怎么选?

page_009_img_009_Im1.png

维度本地大模型第三方中转站官方订阅
费用免费(硬件已购)约 20 元/月1400 元/月
模型能力GPT-4o 的 80-85%接近 GPT-5GPT-5 完整能力
隐私安全⭐⭐⭐⭐⭐ 数据不出本机⭐⭐ 经过第三方⭐⭐⭐ OpenAI 有数据政策
网络要求无需联网需要网络需要科学上网
硬件要求Mac 24GB+ / 独显 PC
稳定性取决于本机性能取决于中转站最稳定

我的建议

  • 日常写代码、改 bug、写脚本 → 本地大模型,性价比之王
  • 复杂项目、需要最强能力 → 第三方 API 中转站或官方订阅,GPT-5 能力碾压本地模型
  • 敏感项目、对隐私要求极高 → 无脑本地大模型,别犹豫
  • Mac 内存不足 24GB → 第三方 API 中转站,充 20 块钱享受 GPT-5,对硬件零要求

其实三者不冲突——Codex 切换配置只要改一行,你可以日常用本地模型,关键时刻切中转站或官方,灵活搭配。中转站配置和本文的方法完全一样,只是把地址从 localhost 换成中转站 URL。


最后说两句

page_013_img_013_Im1.png

Codex 是目前我最离不开的编程工具,没有之一。它让编程的门槛降到了一个前所未有的高度——你不需要记住每一个 API 的用法,不需要查文档,不需要 Debug 到凌晨两点。你只需要清楚地描述你的需求,剩下的交给 Codex。

而本地大模型,让这款工具变得真正自由。不用订阅、不用联网、不用担心数据泄露。你的代码只在你自己的电脑上运行,你的想法只在你自己的机器上处理。

对于苹果 Silicon 用户来说,这几乎是白嫖——你买 Mac 的时候,这台"AI 编程计算机"就已经在里面了。

自由 + 免费 + 私密。还要什么自行车?


page_014_img_014_Im1.png

你在用哪个本地大模型工具?omlx、Ollama 还是 LMStudio?配置过程中遇到什么问题?欢迎在评论区留言交流。

如果觉得这篇文章帮到了你,欢迎点赞 + 关注,后续会持续更新 Codex 相关的进阶教程。