Codex 原生接管 Mac:从代码补全到亲自操控桌面
Codex 最近的这波更新,直接把 AI 代理从“代码补全器”变成了“全干工程师”。
以前我们习惯的 Codex,是个本分在终端和编辑器里打工的辅助工具。出错了看日志,提测了看终端。但从 4 月 16 日的更新开始,Codex 决定自己长出手眼。
最核心的动作是加入了 Computer Use(计算机控制)。加上配套的内置浏览器(In-app browser)和无项目对话(Chats),Codex 正在接管你半个工作流,把原本在浏览器、模拟器甚至第三方应用里的操作都包办了。
Computer Use:打破 API 限制,越过终端接管桌面

这是这次更新里最直观也最硬核的功能。给 Codex 授权 macOS 的屏幕录制和辅助功能(Accessibility)权限后,它就能直接“看”到你的电脑屏幕,并像真人一样模拟键鼠交互。并且他的授权操作非常拟人。

既然绝大多数后台管理通过写脚本就能解决,为什么非要让 AI 亲自上手操作图形界面?
你可以想想平时很卡脖子的几个场景:
- 纯前端的 GUI 故障:你在修一个 iOS 模拟器或者某个只能在图形界面里重现的 bug。以前你只能自己点到那个页面,截图或者复制错误日志给它;现在你可以直接让 Codex 动手:“打开 @AppName,重现一下新手引导那块的报错,去改触发这部分的代码,改完再点一次给我看”。
- 缺乏 API 的第三方应用:你需要让 AI 检查或者修改某些无法通过配置文件或 API 控制的桌面应用设置。

- 跨多端走查:比如后端接口和前端样式开发完后,直接告诉它“打开 @Chrome 用默认设置跑一遍结账页面测试”。
它的局限性也很明确。
目前这项能力只支持 macOS 平台。由于重度依赖屏幕解析截图来推拉坐标,一旦遇到复杂的自定义界面,它还是有可能会“手抖”点错。更重要的是,让一个偶尔会产生幻觉的模型直接拥有鼠标控制权,本身就是个巨大的安全变量。如果任务涉及账号、支付甚至任何带破坏性的操作,你最好在屏幕前盯着,随时准备切走权限或者强行终止它在错误窗口上的点击。
如果你开发的是本地的 Web 应用,官方强烈建议优先使用这次一同推出的内置浏览器(In-app browser)。它能直接在 Codex 内部打开免登录的网页并进行渲染,你能直接在渲染页面上评论,Codex 就能对局部做出修复。相比起调起外部环境,内置浏览器的方案更轻量也更可控。
支持不选中项目对话
这个更新简直更新到我心里了。

过去在 Codex 里发起对话,总是被迫要先绑定一个具体的项目和代码库。但有些时候,我们只是想要个简单的环境来调研新技术或写 Plan。新增的**Chats(无项目对话)**功能给了你一个干净的通用入口,用来做前期调研和技术方案对比等无需绑定仓库的杂活。
搭配这个功能的,是真正适合摸鱼的 Thread automations(线程自动化)。 跑长链路测试或者等一个慢吞吞的服务器部署时,你不必人工守在那里干等了。你可以设定让 Codex 带着当前的上下文“先睡一会”,按照计划任务定时醒来去检查构建结果。如果环境挂了它自己看日志修,如果跑通了再发通知叫你。
另外,新增加的 Artifact Viewer(构件预览) 支持直接在侧边栏渲染 PDF、表格和幻灯片等非代码文件;而对 GitHub 深度集成后,你可以一边读着 PR 里的 Diff 和评论,一边让 Codex 直接基于那些评论到本地工作区去落库修 Bug。
总结
一年前,评价一种 AI 工具的好坏还只看“代码生成对不对”。现在的 Codex,展现出的是一种完全不同的工作范式:它开始把你从找日志、查重现、切浏览器等琐碎事务里拉出来交由它代劳。
这套体系如果你运用得当,能省下大量切窗口、手工查界面的时间;但相应的,你也必须改变心态——你不再只是一个程序员,你要开始习惯像管理一个远程外包一样,给这个会自己动手的 AI 定下明确的安全边界和防具。毕竟,当你不在电脑前的时候,AI 在系统里瞎操作造成的灾难,远比它帮你写的那些 Bug 难修得多。