5 月 14 日,OpenAI 悄悄把 Codex 塞进了 ChatGPT 手机 App。
iOS 和 Android 都能用,所有 ChatGPT 套餐(包括免费版)都解锁。打开应用底栏,多了一个 Codex 标签——里面是你 Mac 上正在跑的所有 AI 编码任务的实时状态。
新闻面上这是一次普通的功能更新。但我把官方公告、开发者文档、Hacker News 讨论、社区实测撸了一遍后,意识到这件事比它看起来重要得多。
一句话总结:
Codex 手机版做的事其实简单——把"人类决策"从工位上拆下来。AI 编码这两年最被低估的瓶颈,来自"等审批",而非模型能力。
这篇我把整个事情讲清楚:它是什么、怎么配、社区在怎么玩、和 Claude Code(小龙虾)的差别在哪、什么场景该用哪个。最后给你一张可以直接抄走的决策清单。
一、Codex 手机版到底是什么——先纠正一个误解
很多人看到"Codex 上手机",第一反应是:
"啊?在手机上写代码?屏幕这么小怎么写?"
错了。
Codex 手机版的定位很明确:一个 AI 代理的遥控器。OpenAI 自己的话说得很直接:
"你可以提示、审查和批准,但手机是远程代理的控制面板,不是编辑工具。"
代码、凭据、本地工具、环境变量——这些全部留在你的 Mac 上。手机只负责三件事:
- 看:实时看 Codex 在干什么——截图、终端输出、代码 diff、测试结果
- 批:批准/拒绝 Codex 想要执行的命令
- 调:发新提示词、切模型、起新任务
OpenAI 内部叫这个架构 "secure relay layer"——一个加密中继层。你的 Mac 不需要暴露公网 IP,不需要开端口,就能通过 ChatGPT 服务器和手机之间建立加密通道,只有你的授权设备能进。
这个设计的精妙之处在于:它解决了远程开发最大的安全顾虑,又把"人类必须坐在电脑前"这个束缚拆掉了。
二、一个被忽视的瓶颈:等审批
要看懂 Codex 手机版的真正意义,得先看清 AI 编码工具过去半年的演进。
过去你用 Codex 或 Claude Code,工作流是这样的:
1. 你坐到电脑前
2. 描述任务给 AI
3. AI 跑一会儿,遇到决策点停下来问你
4. 你看一眼,批准 / 修改 / 拒绝
5. AI 继续跑
6. 循环步骤 3-5 直到完成
注意到了吗?步骤 1 是个隐形的诅咒。
AI 模型已经强到能跑 20 分钟、1 小时、甚至 14 小时的长任务(参考 5 月初那篇 14 小时烧 200 美金的 /goal 事件)。但只要工作流里有"等你批准"这一步,你就必须物理在场。
矛盾就出在这里:模型越强、任务越长,你被工位绑得越死。
OpenAI 这次更新,相当于把"在场"这个约束彻底解开。
"Start something from a computer at home and then go out to the coffee shop and approve the final output over your matcha."(在家用电脑起一个任务,然后出门,到咖啡店端着抹茶就把最终结果批了。)
这是产品设计的核心场景,没有营销话术的成分。
也是为什么我反复强调:AI 编码这一年最被低估的瓶颈,叫审批延迟。
Claude Code 早就看到了这一点——Anthropic 在 2 月份就推出了 Remote Control 功能,比 OpenAI 早了整整 4 个月。OpenAI 这次把竞品验证过的形态做了出来,再加上"免费版可用"这把刀,直接卷起来了。
三、配置教程:5 步把手机和 Mac 串起来
整个配置流程出乎意料地简单。不需要你写 SSH 配置,不需要 ngrok,不需要任何端口转发。
步骤 1:更新两端的 App
- 手机端:App Store / Play Store 更新 ChatGPT 到 2026-05-13 之后版本
- Mac 端:把 Codex Desktop App 升级到最新版(必须是 macOS,Windows 暂不支持)
注意:CLI、网页版、IDE 插件都不能作为连接点。手机只能连 Mac 版 Codex Desktop App。
步骤 2:同账户登录
两端用同一个 OpenAI 账户登。Codex 用账户系统识别"哪些机器属于你",所以不需要扫码,也不需要配对。
步骤 3:在网页配置好云环境
在 chat.openai.com 的 Settings → Codex → Environments 里:
- 关联你的 GitHub 账户
- 配置代码仓库
- 设置环境变量(数据库连接串、API key 等)
这一步在桌面端做完,手机端会自动继承。
步骤 4:打开手机 Codex 标签页
ChatGPT 应用底部导航栏多了一个 Codex 标签。点进去,你会看到:
- 当前活跃的所有线程
- 每个任务的实时状态(运行中 / 等审批 / 已完成)
- 待批准的命令队列
步骤 5:从一个小任务开始测试
别一上来就让 AI 改生产代码。先试一个低风险任务,比如:
"给
utils/format-date.js文件里的所有函数加 JSDoc 注释"
确认你能在手机上看到 diff、能点 Approve 合并、能收到完成通知——基础链路就跑通了。
进阶:Remote SSH 配置(适合用云开发环境的人)
如果你的项目跑在远程服务器上(AWS、DigitalOcean、自建 Mac Mini 都行),Codex 已经把 Remote SSH 做成了 GA 功能。
# 1. 在 ~/.ssh/config 加 host 别名
Host dev-server
HostName your.server.ip
User developer
IdentityFile ~/.ssh/id_ed25519
# 2. 在远程主机安装 Codex CLI 并 codex login
# 3. 桌面 App 的 Settings > Connections 里选这个远程项目目录
如果 Connections 菜单没显示,在 ~/.codex/config.toml 里加:
[features]
remote_connections = true
社区反馈这一项还在 active alpha 阶段,遇到问题先升级 Codex CLI 到 0.121.0 以上。
四、3 个反常识的新工作流
这是文章最值钱的部分。Codex 手机版催生了一些以前根本不存在的工作流——我从社区实践里提炼了 3 个最有杠杆的姿势。
工作流 1:分布式委托(Distributed Delegation)
场景:早上起床,刷牙时打开手机,发给 Codex 三个并行任务:
- 任务 A:把昨天那个 bug 修了,跑完测试
- 任务 B:根据 GitHub Issue #234 做实现
- 任务 C:把这个目录下的所有文档翻译成英文
发完任务,关手机,去通勤。
地铁上手机震一下:"任务 A 想运行 npm install xxx,是否批准?" 你瞄一眼,点批准。
到公司开会,会议中手机震:"任务 C 完成了,请审查 PR。" 你扫一眼 diff,没问题,合并。
中午吃饭,任务 B 卡在了一个设计决策:"要不要保留旧接口的兼容?" 你回复:"保留,加 deprecated 标记,下个版本删。"
核心洞察:以前你是"先到工位再开始工作",现在是"工作一直在跑,你只是在不同时刻批准它"。
工作流 2:Issue 即任务(Issue-as-Task)
场景:你睡前在 GitHub 上扫一眼 issue 列表,看到 3 个简单的:
- "登录按钮在 iPad 上对不齐"
- "API 文档少了 webhook 章节"
- "tests/utils 目录下两个测试用例 flaky"
以前你要么明早处理,要么自己写代码。现在你直接在 ChatGPT 手机 App 里给 Codex 派活:
"看一下 issue #345、#346、#348,分别开三个分支实现,跑完测试发 PR"
睡觉。早上起来手机里躺着三个待 review 的 PR。
如果 issue 描述清晰、改动范围小,这种工作流的边际成本几乎是 0。
工作流 3:异步审批流水线(Async Approval Pipeline)
场景:你在带一个 5 人小团队,每人每天产出 2-3 个 PR。
把 Codex 配成 PR 第一道审查(很多团队已经在这么做)。每次新 PR 提上来,Codex 自动 review、跑测试、写评论。手机端推送给你:
- 简单 PR + 测试通过:你扫一眼 Codex 的评论摘要,直接合并
- 有疑问的 PR:你看一眼 diff,让 Codex 进一步分析或者改一版
核心价值:把"PR Review"这个本来需要你坐在电脑前的事,变成了一个异步的、可以在 30 秒内完成的批准动作。
这不是替代你的判断,是把你的判断从"格式审查"层级提升到"决策审查"层级。
五、和 Claude Code(小龙虾)的差别——决策清单
很多读者问我:"那 Codex 手机版出来了,是不是可以扔掉 Claude Code 了?"
不能。它俩解决的问题不一样。
| 维度 | Codex(手机版) | Claude Code |
|---|---|---|
| 设计哲学 | 云端代理 + 操作控制台 | 本地代理 + 对话中心 |
| 执行位置 | Mac/远程主机(云端 sandbox) | 你自己的终端 |
| 并发能力 | 强(worktree + 多线程可视化) | 中(subagent 协作) |
| Token 效率 | 高(同样任务用 1x token) | 低(同样任务用 4x token) |
| 代码质量 | 65% 开发者日常更喜欢 | 67% 盲评代码更干净 |
| 价格 | 包含在 ChatGPT Plus($20/月)里 | 需要 Anthropic Max($100-200/月) |
| 手机控制 | ✅ 原生,免费版可用 | ✅ 2 月就上线,需 Max 套餐 |
| 基准测试 SWE-bench Pro | 58.6%(GPT-5.5) | 64.3%(Opus 4.7) |
社区里流传一句话总结得最好:
架构用 Claude Code,键盘活用 Codex。
意思是:
- 设计阶段、关键 20% 的复杂改动用 Claude Code——它思考更深、代码更干净、能给你提反对意见
- 执行阶段、剩下 80% 的重复性工作用 Codex——它跑得快、并发强、手机批准方便
很多高产团队的实际配置是:
- 本机 Claude Code 做架构、复杂重构、Code Review
- ChatGPT 手机 App + Codex 做 Issue 实现、文档生成、测试补全
- 两个工具各自跑,互不干扰
六、什么时候用手机版(4 个判断信号)
不是所有任务都适合手机批。给你一张快速决策表:
| 信号 | 适合手机批 | 不适合手机批 |
|---|---|---|
| 任务时长 | >20 分钟的长任务 | 5 分钟以内的快活 |
| 决策复杂度 | 是/否的二选一 | 需要看多个文件上下文 |
| 代码 diff 大小 | <100 行 | >500 行的大改 |
| 失败成本 | 错了能 revert | 一旦合并就是生产事故 |
核心原则:手机批适合低认知负荷、高频次的决策。需要深度思考的,老老实实回工位。
七、必须知道的 5 个坑
实操之前先把这些坑标出来,省得你踩。
- Mac 必须开机在线:手机连的是你的 Mac。Mac 关机或睡眠,整个链路就断。重度用户可以考虑配一台 Mac Mini 当 always-on 主机
- 目前只支持 macOS:Windows 用户暂时只能眼馋,OpenAI 说"很快",但没给时间表
- 弱网体验差:终端流式输出在 4G 弱信号下会有明显延迟,截图也会慢
- 会耗手机电:长时间挂着 Codex 标签页,state streaming 一直在跑,比一般 ChatGPT 用法费电
- 审批太快会出事:小屏幕上点 Approve 很容易眼花。把"重要任务"和"普通任务"分开,重要的必须回电脑看
八、行动清单(今晚就能做的事)
- 更新两端的 App:手机 ChatGPT + Mac Codex Desktop
- 跑通一个最小 demo:找一个 30 行内的小重构任务,从手机端启动,确认能收到通知、能批准
- 在 GitHub 上找 3 个低复杂度 issue:作为你接下来一周的"手机批 PR"实验素材
- 决定你的工具分工:哪些任务给 Codex、哪些留给 Claude Code,写在笔记里
- 设一个时长门槛:比如"超过 30 分钟的任务才让 Codex 跑",把短任务留给本地,避免上下文切换
写在最后
每次有这种工具进化,我都会想起一个老问题:省下来的时间,到底花到哪里?
Codex 手机版给你的不是"在手机上写代码的能力"——这是个伪需求。它给你的是把工位从你的物理位置上拆下来的能力。
省下来的不是写代码的时间,是等待的时间和被绑在工位上的时间。
至于这些时间你用来做什么——读一本书、陪人吃饭、想想下一个项目、或者再开三个 Codex 任务榨干 ChatGPT 套餐——那是另一个层级的问题了。
工具是工具。决策权和注意力,永远在你手里。
配套资源:
- OpenAI 官方公告:"Work with Codex from anywhere"
- 文档:developers.openai.com/codex/app/f…
- Remote SSH 配置:developers.openai.com/codex/remot…
- 对比测评:morphllm.com、datacamp 都有 Codex vs Claude Code 的最新对比
如果这篇对你有用,转发给那个还在工位上熬夜批 PR 的朋友。