Codex Computer Use 教 AI 看屏幕，HAR 流教 AI 发指令——谁才是真正的打工替身？2026年4

不用看API文档，不用申请密钥。
不需要AI“看屏幕”碰运气——录一段HAR，AI精确搞定一切。
写完往 Openclaw 一丢，你负责吃小龙虾，它负责把消息发到群里。

2026年4月，AI界的地震级更新接踵而至。OpenAI 刚刚发布了Codex的史诗级更新，赋予了AI全新的 “Computer Use” 能力：它拥有了自己的虚拟鼠标，能在Mac后台“看、点、输”，替你操作几乎任何桌面应用。

全世界的开发者都在为此狂欢：“AI终于能自己干活了！”

但在聚光灯之外，真正的生产力爆破，却藏在一个你可能每天都在用、却从未想过能用来造机器人的功能里——浏览器的HAR录制。

先别急着说“就这？”。如果你认为让AI“看屏幕”是唯一的自动化捷径，那你可能会白白浪费时间、金钱和算力。

今天这篇文章，就是要为你扒开 “HAR录制自动化” 的神秘面纱，并把它和顶流的 “OpenAI Computer Use” 放在天平上称一称。

看完你就知道，为什么高手都在悄悄用前者，而新手还在为后者的“幻觉误触”买单。

💥 暴击开场：为什么说“让AI看屏幕”是杀鸡用牛刀？

我们先来直视 Codex Computer Use 的真相：

OpenAI 官宣：Codex 现在可以通过 “看、点、输” 的方式，像真人一样操作你的Mac电脑和应用。它能自己移动光标，能处理“没有API的软件”，甚至能在后台并行工作。

听起来是不是无敌了？这简直就是钢铁侠的贾维斯！

冷静。我们来做一道残忍的算术题：

如果你只是想“每天在GitHub上自动创建几个Issue”或者“从公司后台导出昨天的报表”，让AI用视觉（Computer Use）来做这件事意味着：

💰 巨额Token费：每一秒，AI都在疯狂截屏、识别、分析坐标。这烧的全是API费。以GPT-5.4 Computer Use API为例，每100万输出token要30美元，一个稍微复杂的网页操作跑下来，几毛钱几块钱就没了——而你原本只是想省30秒时间。
🐢 极低的效率：AI必须像老年人上网一样：“哦，我看到了登录框……哦，我现在移动鼠标去点它……哦，我打一个字……”。执行一个5秒钟的操作，AI可能需要反复截图验证30秒。
😵 致命的幻觉：今天它认出“提交”按钮了，明天网站UI改了一个像素，它可能就“瞎了”，对着空白处疯狂点击。

不可否认，Computer Use是操作系统级的全能王——它生来就是为了搞定那些极度非标、完全无法预测、零API的长尾死局（比如修复一个Xcode里的游戏Bug）。

但对于你每天重复千遍的“标准机械动作” 呢？用Computer Use，就是 “用巡航导弹打蚊子”——猛是真猛，贵也是真贵，而且极大概率会误炸。

🚀 降维打击：HAR录制的“精确制导”逻辑

HAR (HTTP Archive) 是什么？

它不是录屏，它是浏览器 “数据底层的监控录像” 。
当你在浏览器里登录、点按钮、填表单时，背后其实是你的电脑向服务器发送了一堆加密的“信件”（网络请求）。

录制HAR，就是把这些“信件”的格式、内容、收件人地址，一个字母不差地拷贝下来。

这就是 HAR录制自动化 的降维打击逻辑：

不研究视觉，不依赖API文档——直接复刻你自己的“数据对话”。

过程极其暴力：

夺舍登录态：F12 → Application → Cookies，复制一串字符。OK，现在你的AI脚本拥有了你的“通行证”。
录制核心请求：在Network里点一下录制，做一个你想自动化的操作（比如“新建任务”），然后停止。
AI 逆向工程：把HAR丢给AI，对它说：“嘿，把刚才那个‘创建任务的API’给我找出来，写成Python脚本。”
永动开启：AI分析出了URL、Headers、Payload结构，吐出一份精确到毫秒的执行脚本。

核心差异在这一刻体现得淋漓尽致：

维度	💻 Computer Use (视觉流)	🎯 HAR 录制自动化 (数据流)
核心逻辑	看图识字，模拟人类鼠标键盘	直接发包，模拟人类网络请求
对UI变化的容忍度	零容忍 (改个样式就瞎)	绝对免疫 (只要后端API没变)
执行速度	30秒起步 (加载渲染、坐标定位)	毫秒级 (直连服务器)
Token / 算力消耗	极高 (每一帧都在烧钱)	近乎为零 (一次性分析，永久复刻)
编程门槛	无门槛 (理论上用嘴就行)	零门槛 (你只需录HAR，AI写代码)
最适合场景	一次性、跨软件、无API的罕见任务	高频、重复、固定的业务流程

🧪 极限实战：15分钟 VS 30秒，用HAR再造一个飞书任务助手

光说不练假把式。我们把这两种技术拉到真实的“战场”上遛一遛。

场景假设：你是一个项目经理

每天你都要做同一件事：把“用户反馈群”里的聊天精华，手动敲到飞书多维表格里作为Bug追踪。
这件事每天花掉你30分钟，烦不胜烦，且毫无价值。

🅰️ 方案 A：使用 Codex Computer Use

操作：你对Codex说：“去飞书群里，把今天上午10点到12点标记为重要的消息，提取关键Bug，填到‘研发排期表’里。”
AI执行过程：
- AI截屏，识别飞书群窗口。
- 尝试通过图像找到“重要消息”标签（如果群聊背景换了颜色，或字体变了，可能第一步就卡住）。
- 逐条滚动截屏，OCR识别文字。
- 切换到多维表格，通过视觉找“添加一行”按钮。
- 输入文字（极其缓慢）。
结果：
- 耗时：约 3-5 分钟（如果中途没点错的话）。
- 费用：约 $0.5 -$ 1.0 / 次 (取决于截屏张数)。
- 风险：一旦飞书改版UI，这条自动化链直接报废。

Gemini_Generated_Image_285jwx285jwx285j (1).png

🅱️ 方案 B：使用 HAR 录制 + Skill 脚本

操作：
- Step 1 (5分钟)：打开飞书网页版 → F12 → 录制 → 点开一条消息 → 在多维表格里加一行。导出 task.har。
- Step 2 (10分钟)：把 HAR 丢给 AI：“分析这个文件，找到‘发送群消息’和‘添加表格行’的API，生成一个 Skill。”
- Step 3 (0分钟)：AI 生成的 Python 脚本上线运行。
结果：
- 耗时：第一次15分钟搭建；之后每天自动执行仅需 < 3秒。
- 费用：$0.000（脚本在本地运行，不发截图）。
- 风险：即便飞书UI改得面目全非，只要后端数据接口 /open-apis/bitable/... 没变，脚本100%照常工作。

哪个才是面向生产力的解法？答案不言而喻。

🔫 终极形态：当 Skill 遇见 Openclaw——你的嘴就是鼠标

上面的技术你可能觉得：“嗯，很牛，但我还是得打开终端敲命令运行脚本？”

格局小了。

HAR录制生成的 Skill，真正的最终归宿不是你的本地文件夹，而是一个叫 Openclaw 的地方。

Openclaw 是什么？你可以把它理解为 AI 的“手”和“脚”——一个专门用来运行这些 SKILL.md 和 Python 脚本的智能体环境。

整个过程会变成这样一段魔幻现实主义体验：

你：花 15 分钟录好 HAR，AI 帮你生成了一个名为“飞书群发助手”的 Skill 文件夹。
你：把这个文件夹直接拖进 Openclaw 的聊天框（或者 @ 它并关联这个技能）。
你：关掉所有网页，躺在椅子上，拿起手机，对着 Openclaw 说了一句人话：

“Hey Openclaw，帮我在【摸鱼小分队】群里发一条消息，就说：今晚小龙虾局，老地方，我请了AI代班写代码，必到。”

⚡️ 下一秒发生了什么（Codex Computer Use 做不到的事）

Codex Computer Use 的视角：
它睁开眼睛，开始移动鼠标，寻找飞书图标，双击，等待加载，寻找搜索框，输入“摸鱼小分队”，点击进入，寻找输入框，打字，寻找发送按钮，点击发送。
耗时 45 秒，费用 $0.3，且有 15% 概率点进了隔壁的“工作汇报群”酿成惨剧。
Openclaw + HAR Skill 的视角：
它读取了你的技能说明书，发现触发词是“发消息”和“小龙虾”。

Openclaw 内部只干了一件事：向飞书的服务器发送了一个极简的数据包。
数据包里写着：接收群ID是“摸鱼小分队”，内容就是那段小龙虾邀约的文字。

耗时 0.8 秒。费用 $0.000。成功率 100%。

🦞 为什么只有 HAR 流能让你“吃着小龙虾就把活干了”？

因为 Openclaw + Skill 的组合，把 AI 的执行逻辑从 “模拟人类观察” 降维到了 “机器直接执行”。

没有界面渲染等待：不用等网页上那个菊花转完。
没有坐标计算：不用算聊天框距离屏幕左上角是 (1345, 678)。
没有误触焦虑：你不用担心 Openclaw 会不小心点开你昨晚看的淘宝链接。

这就是为什么我说：

Codex Computer Use 是让 AI 替你“看电脑”，你依然得守在旁边看着它别犯错。
Openclaw + HAR Skill 是让 AI 替你“发指令”，你完全可以关机去吃小龙虾，事情照样办妥。

🎯 完整对比表：三足鼎立，谁才是真·效率之王？

维度	🖱️ Codex Computer Use	📡 HAR 录制	🤖 HAR + Openclaw (完全体)
操作入口	对 AI 描述屏幕内容	对着终端敲代码	对着手机说人话
执行速度	分钟级 (受UI加载限制)	毫秒级 (纯后端)	即时响应 (边聊边干)
执行体验	像在看一位老爷爷用电脑	像在看黑客跑脚本	像在吩咐一位隐形的贴身秘书
安全性	有概率点错、误删	只发指定请求	只执行预设的意图
场景代入	你喊 AI 去发小龙虾邀约	你写了脚本定时发邀约	你随口一说，Openclaw 就把小龙虾局组好了
费用	💸💸💸💸💸	💸	💸 (几乎为0)

Gemini_Generated_Image_285jwx285jwx285j (2).png

🛠️ 从零到一：实操路线图（保姆级对比版）

好了，如果你已经被我说服，这里有一份 “HAR流”独家的极简生存指南。

第一关：获得AI的“肉身”——处理认证

Computer Use 做法：眼睁睁看着AI笨拙地输入账号密码，或尝试保存全屏Cookies。
HAR流做法：直接把 Cookie 字符串复制粘贴到脚本的环境变量里。这串字符就是你浏览器的临时身份证，AI拿着它就能畅通无阻。

第二关：传授“武功秘籍”——提取关键操作

Computer Use 做法：费尽心机写 Prompt：“你要先看左边，找到蓝色的按钮……”
HAR流做法：直接把 HAR 扔给 AI。

你可以这样对 AI 说：
“在这个HAR文件中，找出向 https://api.xxx.com/task/create 发送请求的那一条记录。把里面的数据格式提取出来，把标题和描述替换成参数，生成一段可运行的脚本。”

第三关：组装“战斗指令”——编写 Skill.md

无论哪种技术，AI都需要明确的指令。

Computer Use 说明书：长达10页的屏幕坐标描述和异常重试分支。
HAR流说明书：只需要用大白话告诉AI工作流：
1. 先检查本地的 Cookie 文件有没有过期。
2. 执行创建任务的脚本，标题用刚才你说的话。
3. 如果返回成功就报喜，如果返回失败就提醒你重新登录网页。

第四关：终极部署——丢进 Openclaw

将写好的技能说明和脚本放在一个文件夹。
拖入 Openclaw。
从此，你只需要说话。

💎 写在最后：AI 时代的打工哲学

别再盯着那炫酷的、会自己动鼠标的“桌面幽灵”羡慕不已了。

真正的生产力解放，从来不是看 AI 表演怎么费力地点点点，而是让 AI 在你看不见的地方 ，把事情办得妥妥的。

今晚就去吃小龙虾吧。
打开浏览器，录下那个你最讨厌的“发日报”操作，丢给 AI 生成一个 Skill，然后塞进 Openclaw。

明天开始，你负责思考，它负责发送。
这，才是对重复劳动最优雅的复仇。

如果这篇文章对你有帮助，欢迎分享给同样被重复操作困扰的朋友。

也欢迎在评论区聊聊：你最想自动化哪个网站的操作？或者是——你打算让 Openclaw 帮你往哪个群里发小龙虾邀约？