OpenAI 王炸功能上线：你演示一遍，Codex 自动复刻！OpenAI Codex 自动复刻功能实战：Record

OpenAI Codex 自动复刻功能实战：Record & Replay 配置与避坑指南

报销、请假、上传视频、整理表格。

这些每天都在重复的枯燥劳动，以后你只需要在电脑上演示一遍，AI 就能自动学会并帮你搞定。

刚刚，OpenAI 为 Codex 带来了一个极具颠覆性的全新功能：「Record & Replay」（录制与回放） 。

简单来说，你在电脑上正常操作一遍工作流程，Codex 就会全程观察你的屏幕，并自动将你的操作路径、逻辑分支整理成一个专属的 AI 技能（Skill）。

下次再遇到同样的任务，你只需要对 Codex 说一句话，它就会自动接管你的屏幕和键盘，帮你把活干完。

我们正在从“写提示词教 AI 怎么做”，跨越到“直接做给 AI 看”的全新阶段。

本文将为你深度解析 Record & Replay 的核心机制、配置步骤、实战案例以及在实际落地中必须注意的避坑指南。

一、 Record & Replay 与传统 RPA 有何不同？

在开始实操之前，我们需要厘清一个核心概念：它绝不是简单的“按键精灵”或传统 RPA（机器人流程自动化） 。

传统的 RPA 工具完全依赖于固定的坐标、特定的 DOM 节点或严格的逻辑脚本。

一旦网页按钮偏移了 5 个像素，或者弹出了一个未预料到的广告弹窗，RPA 脚本就会直接崩溃。

Codex 的 Record & Replay 则是基于语义理解与视觉多模态运行的。

视觉感知：它像人眼一样观察屏幕，识别按钮的文本含义（例如“提交”和“确认”），而不是单纯记录鼠标坐标。
逻辑推理：它能理解你每一步操作的意图。例如，它知道你选择 .srt 文件是为了挂载字幕，而不是无意义的上传。
自愈能力：如果系统响应变慢或出现偶发性报错，Codex 会尝试等待或寻找替代路径，而不是直接报错退出。

说白了，它是一个拥有“视觉”和“脑子”的屏幕操作助手。

二、准备工作与环境配置

要顺畅运行 Record & Replay 功能，你的系统和账户需要满足以下前置条件。

1. 基础环境要求

操作系统：目前该功能仅支持 macOS 系统，Windows 用户需要等待后续版本更新。
账户权限：你的账户必须已开通 Computer Use（计算机使用） 权限。如果未开通，功能入口将无法显示。
客户端版本：请确保你的 Codex 桌面端 App 已更新至 2026 年最新版本。

2. 开发者高级配置：模型服务接入

对于开发者或需要高频调用自动化任务的用户来说，直接使用默认通道可能会遇到调用频次限制。

在实际开发和测试中，我们通常会配置自定义的 OpenAI 兼容接口，以确保自动化任务的稳定运行。

这里我们以 iThinkAPI 作为演示环境，展示如何配置自定义模型服务。

在配置 Codex 或自定义 Agent 工具时，支持 OpenAI Compatible API 的服务可以作为灵活的替代方案。

你可以参考以下固定配置块进行连接：

Base URL：https://token.ithinkai.cn/v1
API Key：YOUR_API_KEY
Model：以服务文档为准，最新模型 gpt-5.5、claude-opus-4-8、gpt-image-2 等可按文档查看；涉及图片生成时，以 0.05¥/图起、2k/4k 支持等服务文档说明为准。

在客户端或代码中，具体的配置界面通常如下所示：

为了让自定义配置顺利生效，请按照以下两个步骤完成后台设置：

第二步：挑选模型与确定分组
进入模型服务管理平台的模型广场。
在搜索栏中输入 gpt、claude 或 image 等关键词，筛选出适合当前任务的模型。

例如，对于复杂的结构计算书逻辑推理，建议选择推理能力较强的模型系列。
对于简单的表格整理，则可以选择响应速度更快的轻量级模型。
确认模型后，需要注意其对应的分组或线路。
同一模型在不同的分组下，其调用额度、响应速度和可用状态可能会有所差异，具体请以页面展示和服务文档为准。
第三步：创建 API 令牌
登录控制台，打开“令牌管理”或“API Keys”页面。
点击“添加令牌”按钮，创建一个新的 API Key。
在创建时，建议将该令牌绑定你在第二步中选中的模型分组。
如果不确定具体的模型限制，可以先不设置过于严格的限制条件。

令牌创建成功后，复制生成的 Key。
回到 Codex 的配置界面，将 Key 填入 API Key 输入框，保存设置并进行连接测试。

三、 Record & Replay 实战：手把手教你录制首个 Skill

我们以日常最繁琐的“跨平台视频上传与发布”为例，演示如何让 Codex 自动复刻这一流程。

步骤 1：启动录制插件

打开 Codex 客户端，点击左侧菜单栏的 Plugins（插件） 选项。

在插件市场或已安装列表中，找到 Record & Replay 插件。

点击右上角的“+”号，选择 Record a skill（录制新技能） 。

步骤 2：明确录制意图

在开始录制前，Codex 会弹出一个对话框，询问你准备录制什么任务。

建议使用清晰的自然语言进行描述，例如：

“我要录制一个将本地视频上传到社交媒体平台，并配置封面、字幕和隐私权限的完整流程。”

这一步非常关键，它能帮助 Codex 提前构建语义上下文，提高后续步骤识别的准确率。

步骤 3：授权并开始操作

点击确认后，系统会弹窗申请 屏幕录制与控制权限。

批准权限后，录制正式开始。此时，你只需在电脑上像平时一样正常操作：

打开浏览器，登录你的视频平台后台。
点击“上传视频”，在弹出的文件选择框中选中你的测试视频。
手动输入视频标题、简介，并打上标签。
上传准备好的封面图片。
挂载 .srt 格式的字幕文件。
在隐私设置中选择“公开发布”。
点击“发布”按钮。

步骤 4：结束录制并生成 Skill

操作完成后，点击系统菜单栏的 Codex 图标，选择 Stop Recording（停止录制） 。

Codex 会进入短暂的分析阶段，将刚才捕获的屏幕帧、键盘输入和鼠标轨迹进行结构化处理。

片刻之后，它会自动生成一份专属的技能说明文件（通常命名为 SKILL.md）。

在这份文件里，Codex 已经自动帮你梳理好了：

触发场景：什么时候该调用这个技能。
必要输入：执行该任务需要你提供哪些参数（如视频路径、标题文本、封面路径）。
执行步骤：精细到点击哪个按钮、填写哪个输入框。
断言条件：如何判断这一步操作成功了。

四、进阶技巧：如何优化你的 SKILL.md 配置文件？

Codex 自动生成的技能文件虽然可以直接运行，但如果想要在复杂的生产环境中做到 100% 稳定，建议手动对其进行微调。

一个标准的 SKILL.md 配置文件结构如下，你可以根据实际需求修改参数默认值：

# Skill: 视频自动发布助手

## 适用场景
当用户需要向指定平台批量上传视频并填写元数据时。

## 必需输入参数
- `video_path`: 本地视频文件的绝对路径
- `title_text`: 视频标题
- `cover_path`: 封面图片路径
- `tags`: 标签列表（逗号分隔）

## 执行步骤
1. 启动 Chrome 浏览器，导航至 `https://creator.platform.com/upload`。
2. 确认页面加载完成后，定位到 ID 为 `upload-input` 的元素，并输入 `video_path`。
3. 在标题输入框中填入 `title_text`。如果 `title_text` 超过 30 字，自动截取前 30 字。
4. 点击“上传封面”按钮，选择 `cover_path`。
5. 滚动页面至底部，将隐私选项勾选为“公开”。
6. 点击“确认发布”按钮。

## 异常处理
- 如果遇到“登录失效”弹窗，暂停执行并提示用户手动扫码登录，登录成功后继续。
- 如果视频格式不支持，直接中断任务并报错。

通过这种方式，你可以为 Codex 规范好边界条件和命名规范，避免 AI 在执行过程中“自由发挥”。

五、避坑指南与排错方法

在实际使用 Record & Replay 的过程中，很多同学会遇到“录制一时爽，回放一直卡”的情况。

以下是整理出的高频踩坑点及解决方法：

1. 敏感信息泄露风险

问题：录制过程中，如果你输入了账号密码、验证码或展示了个人隐私数据，Codex 会原封不动地记录下来。
对策：在录制前，请务必提前登录好目标系统。录制过程中，尽量避免输入任何真实的敏感密码。如果必须输入，请在录制结束后，手动打开生成的技能配置文件，将密码部分替换为变量占位符。

2. 多任务干扰导致逻辑混乱

问题：录制期间，你突然切出去回了个微信，或者点开了一个无关的网页。Codex 会把这些噪音操作也录进去，导致回放时出错。
对策：录制时请保持专注。一气呵成地完成单一工作流，操作完毕后立刻点击停止，不要有多余的鼠标晃动和窗口切换。

3. 动态元素定位失败

问题：某些网页的按钮 ID 是动态生成的（每次刷新都会变），导致 Codex 回放时找不到按钮。
对策：如果回放卡在某一步，请检查 SKILL.md。避免让 Codex 依赖绝对的 DOM ID，可以引导它使用文本锚点（例如：寻找写有“下一步”字样的按钮）来进行定位。

4. 验证码（MFA/2FA）阻断

问题：安全级别较高的系统在提交时会弹出滑块验证码或手机验证码。
对策：在 SKILL.md 中加入人工干预节点。例如配置：“遇到验证码时，暂停 30 秒，等待用户手动完成验证后继续执行”。

六、总结与展望

从 Prompt Engineering（提示词工程）到 Demonstration-Based Learning（基于演示的学习） ，OpenAI Codex 的 Record & Replay 功能代表了人机交互方式的一次重大跃升。

它极大地降低了非技术人员使用 AI 自动化的门槛。

你不再需要去学习复杂的 Python 自动化脚本，也不需要去配置繁琐的 RPA 节点。

你只需要做一遍，剩下的交给 AI。

建议大家立刻升级客户端，从最简单的日常报销或表格整理开始，录制你的第一个专属 AI Skill，彻底释放你的双手。

OpenAI 王炸功能上线：你演示一遍，Codex 自动复刻！