OpenAI 王炸功能上线:你演示一遍,Codex 自动复刻!

0 阅读10分钟

OpenAI Codex 自动复刻功能实战:Record & Replay 配置与避坑指南

报销、请假、上传视频、整理表格。

这些每天都在重复的枯燥劳动,以后你只需要在电脑上演示一遍,AI 就能自动学会并帮你搞定。

刚刚,OpenAI 为 Codex 带来了一个极具颠覆性的全新功能:「Record & Replay」(录制与回放)

简单来说,你在电脑上正常操作一遍工作流程,Codex 就会全程观察你的屏幕,并自动将你的操作路径、逻辑分支整理成一个专属的 AI 技能(Skill)。

下次再遇到同样的任务,你只需要对 Codex 说一句话,它就会自动接管你的屏幕和键盘,帮你把活干完。

我们正在从“写提示词教 AI 怎么做”,跨越到“直接做给 AI 看”的全新阶段。

本文将为你深度解析 Record & Replay 的核心机制、配置步骤、实战案例以及在实际落地中必须注意的避坑指南。


一、 Record & Replay 与传统 RPA 有何不同?

在开始实操之前,我们需要厘清一个核心概念:它绝不是简单的“按键精灵”或传统 RPA(机器人流程自动化)

传统的 RPA 工具完全依赖于固定的坐标、特定的 DOM 节点或严格的逻辑脚本。

一旦网页按钮偏移了 5 个像素,或者弹出了一个未预料到的广告弹窗,RPA 脚本就会直接崩溃。

Codex 的 Record & Replay 则是基于语义理解与视觉多模态运行的。

  • 视觉感知:它像人眼一样观察屏幕,识别按钮的文本含义(例如“提交”和“确认”),而不是单纯记录鼠标坐标。
  • 逻辑推理:它能理解你每一步操作的意图。例如,它知道你选择 .srt 文件是为了挂载字幕,而不是无意义的上传。
  • 自愈能力:如果系统响应变慢或出现偶发性报错,Codex 会尝试等待或寻找替代路径,而不是直接报错退出。

说白了,它是一个拥有“视觉”和“脑子”的屏幕操作助手。


二、 准备工作与环境配置

要顺畅运行 Record & Replay 功能,你的系统和账户需要满足以下前置条件。

1. 基础环境要求

  • 操作系统:目前该功能仅支持 macOS 系统,Windows 用户需要等待后续版本更新。
  • 账户权限:你的账户必须已开通 Computer Use(计算机使用) 权限。如果未开通,功能入口将无法显示。
  • 客户端版本:请确保你的 Codex 桌面端 App 已更新至 2026 年最新版本。

2. 开发者高级配置:模型服务接入

对于开发者或需要高频调用自动化任务的用户来说,直接使用默认通道可能会遇到调用频次限制。

在实际开发和测试中,我们通常会配置自定义的 OpenAI 兼容接口,以确保自动化任务的稳定运行。

这里我们以 iThinkAPI 作为演示环境,展示如何配置自定义模型服务。

在配置 Codex 或自定义 Agent 工具时,支持 OpenAI Compatible API 的服务可以作为灵活的替代方案。

你可以参考以下固定配置块进行连接:

Base URL:https://token.ithinkai.cn/v1
API Key:YOUR_API_KEY
Model:以服务文档为准,最新模型 gpt-5.5、claude-opus-4-8、gpt-image-2 等可按文档查看;涉及图片生成时,以 0.05¥/图起、2k/4k 支持等服务文档说明为准。

在客户端或代码中,具体的配置界面通常如下所示:

为了让自定义配置顺利生效,请按照以下两个步骤完成后台设置:

第二步:挑选模型与确定分组
进入模型服务管理平台的模型广场。
在搜索栏中输入 gptclaude 或 image 等关键词,筛选出适合当前任务的模型。

例如,对于复杂的结构计算书逻辑推理,建议选择推理能力较强的模型系列。
对于简单的表格整理,则可以选择响应速度更快的轻量级模型。
确认模型后,需要注意其对应的分组或线路。
同一模型在不同的分组下,其调用额度、响应速度和可用状态可能会有所差异,具体请以页面展示和服务文档为准。
第三步:创建 API 令牌
登录控制台,打开“令牌管理”或“API Keys”页面。
点击“添加令牌”按钮,创建一个新的 API Key。
在创建时,建议将该令牌绑定你在第二步中选中的模型分组。
如果不确定具体的模型限制,可以先不设置过于严格的限制条件。

令牌创建成功后,复制生成的 Key。
回到 Codex 的配置界面,将 Key 填入 API Key 输入框,保存设置并进行连接测试。

三、 Record & Replay 实战:手把手教你录制首个 Skill

我们以日常最繁琐的“跨平台视频上传与发布”为例,演示如何让 Codex 自动复刻这一流程。

步骤 1:启动录制插件

打开 Codex 客户端,点击左侧菜单栏的 Plugins(插件) 选项。

在插件市场或已安装列表中,找到 Record & Replay 插件。

点击右上角的“+”号,选择 Record a skill(录制新技能)

步骤 2:明确录制意图

在开始录制前,Codex 会弹出一个对话框,询问你准备录制什么任务。

建议使用清晰的自然语言进行描述,例如:

“我要录制一个将本地视频上传到社交媒体平台,并配置封面、字幕和隐私权限的完整流程。”

这一步非常关键,它能帮助 Codex 提前构建语义上下文,提高后续步骤识别的准确率。

步骤 3:授权并开始操作

点击确认后,系统会弹窗申请 屏幕录制与控制权限

批准权限后,录制正式开始。此时,你只需在电脑上像平时一样正常操作:

  1. 打开浏览器,登录你的视频平台后台。
  2. 点击“上传视频”,在弹出的文件选择框中选中你的测试视频。
  3. 手动输入视频标题、简介,并打上标签。
  4. 上传准备好的封面图片。
  5. 挂载 .srt 格式的字幕文件。
  6. 在隐私设置中选择“公开发布”。
  7. 点击“发布”按钮。

步骤 4:结束录制并生成 Skill

操作完成后,点击系统菜单栏的 Codex 图标,选择 Stop Recording(停止录制)

Codex 会进入短暂的分析阶段,将刚才捕获的屏幕帧、键盘输入和鼠标轨迹进行结构化处理。

片刻之后,它会自动生成一份专属的技能说明文件(通常命名为 SKILL.md)。

在这份文件里,Codex 已经自动帮你梳理好了:

  • 触发场景:什么时候该调用这个技能。
  • 必要输入:执行该任务需要你提供哪些参数(如视频路径、标题文本、封面路径)。
  • 执行步骤:精细到点击哪个按钮、填写哪个输入框。
  • 断言条件:如何判断这一步操作成功了。

四、 进阶技巧:如何优化你的 SKILL.md 配置文件?

Codex 自动生成的技能文件虽然可以直接运行,但如果想要在复杂的生产环境中做到 100% 稳定,建议手动对其进行微调。

一个标准的 SKILL.md 配置文件结构如下,你可以根据实际需求修改参数默认值:

# Skill: 视频自动发布助手

## 适用场景
当用户需要向指定平台批量上传视频并填写元数据时。

## 必需输入参数
- `video_path`: 本地视频文件的绝对路径
- `title_text`: 视频标题
- `cover_path`: 封面图片路径
- `tags`: 标签列表(逗号分隔)

## 执行步骤
1. 启动 Chrome 浏览器,导航至 `https://creator.platform.com/upload`2. 确认页面加载完成后,定位到 ID 为 `upload-input` 的元素,并输入 `video_path`3. 在标题输入框中填入 `title_text`。如果 `title_text` 超过 30 字,自动截取前 30 字。
4. 点击“上传封面”按钮,选择 `cover_path`5. 滚动页面至底部,将隐私选项勾选为“公开”。
6. 点击“确认发布”按钮。

## 异常处理
- 如果遇到“登录失效”弹窗,暂停执行并提示用户手动扫码登录,登录成功后继续。
- 如果视频格式不支持,直接中断任务并报错。

通过这种方式,你可以为 Codex 规范好边界条件命名规范,避免 AI 在执行过程中“自由发挥”。


五、 避坑指南与排错方法

在实际使用 Record & Replay 的过程中,很多同学会遇到“录制一时爽,回放一直卡”的情况。

以下是整理出的高频踩坑点及解决方法:

1. 敏感信息泄露风险

  • 问题:录制过程中,如果你输入了账号密码、验证码或展示了个人隐私数据,Codex 会原封不动地记录下来。
  • 对策在录制前,请务必提前登录好目标系统。录制过程中,尽量避免输入任何真实的敏感密码。如果必须输入,请在录制结束后,手动打开生成的技能配置文件,将密码部分替换为变量占位符。

2. 多任务干扰导致逻辑混乱

  • 问题:录制期间,你突然切出去回了个微信,或者点开了一个无关的网页。Codex 会把这些噪音操作也录进去,导致回放时出错。
  • 对策:录制时请保持专注。一气呵成地完成单一工作流,操作完毕后立刻点击停止,不要有多余的鼠标晃动和窗口切换。

3. 动态元素定位失败

  • 问题:某些网页的按钮 ID 是动态生成的(每次刷新都会变),导致 Codex 回放时找不到按钮。
  • 对策:如果回放卡在某一步,请检查 SKILL.md。避免让 Codex 依赖绝对的 DOM ID,可以引导它使用文本锚点(例如:寻找写有“下一步”字样的按钮)来进行定位。

4. 验证码(MFA/2FA)阻断

  • 问题:安全级别较高的系统在提交时会弹出滑块验证码或手机验证码。
  • 对策:在 SKILL.md 中加入人工干预节点。例如配置:“遇到验证码时,暂停 30 秒,等待用户手动完成验证后继续执行”。

六、 总结与展望

从 Prompt Engineering(提示词工程)到 Demonstration-Based Learning(基于演示的学习) ,OpenAI Codex 的 Record & Replay 功能代表了人机交互方式的一次重大跃升。

它极大地降低了非技术人员使用 AI 自动化的门槛。

你不再需要去学习复杂的 Python 自动化脚本,也不需要去配置繁琐的 RPA 节点。

你只需要做一遍,剩下的交给 AI。

建议大家立刻升级客户端,从最简单的日常报销或表格整理开始,录制你的第一个专属 AI Skill,彻底释放你的双手。