Codex Computer Use 教 AI 看屏幕,HAR 流教 AI 发指令——谁才是真正的打工替身?

0 阅读9分钟

不用看API文档,不用申请密钥。
不需要AI“看屏幕”碰运气——录一段HAR,AI精确搞定一切。
写完往 Openclaw 一丢,你负责吃小龙虾,它负责把消息发到群里。

2026年4月,AI界的地震级更新接踵而至。OpenAI 刚刚发布了Codex的史诗级更新,赋予了AI全新的 “Computer Use” 能力:它拥有了自己的虚拟鼠标,能在Mac后台“看、点、输”,替你操作几乎任何桌面应用。

全世界的开发者都在为此狂欢:“AI终于能自己干活了!”

但在聚光灯之外,真正的生产力爆破,却藏在一个你可能每天都在用、却从未想过能用来造机器人的功能里——浏览器的HAR录制

先别急着说“就这?”。如果你认为让AI“看屏幕”是唯一的自动化捷径,那你可能会白白浪费时间、金钱和算力。

今天这篇文章,就是要为你扒开 “HAR录制自动化” 的神秘面纱,并把它和顶流的 “OpenAI Computer Use” 放在天平上称一称。

看完你就知道,为什么高手都在悄悄用前者,而新手还在为后者的“幻觉误触”买单。


💥 暴击开场:为什么说“让AI看屏幕”是杀鸡用牛刀?

我们先来直视 Codex Computer Use 的真相:

OpenAI 官宣:Codex 现在可以通过 “看、点、输” 的方式,像真人一样操作你的Mac电脑和应用。它能自己移动光标,能处理“没有API的软件”,甚至能在后台并行工作。

听起来是不是无敌了?这简直就是钢铁侠的贾维斯!

冷静。我们来做一道残忍的算术题:

如果你只是想“每天在GitHub上自动创建几个Issue”或者“从公司后台导出昨天的报表”,让AI用视觉(Computer Use)来做这件事意味着:

  • 💰 巨额Token费:每一秒,AI都在疯狂截屏、识别、分析坐标。这烧的全是API费。以GPT-5.4 Computer Use API为例,每100万输出token要30美元,一个稍微复杂的网页操作跑下来,几毛钱几块钱就没了——而你原本只是想省30秒时间。
  • 🐢 极低的效率:AI必须像老年人上网一样:“哦,我看到了登录框……哦,我现在移动鼠标去点它……哦,我打一个字……”。执行一个5秒钟的操作,AI可能需要反复截图验证30秒。
  • 😵 致命的幻觉:今天它认出“提交”按钮了,明天网站UI改了一个像素,它可能就“瞎了”,对着空白处疯狂点击。

不可否认,Computer Use是操作系统级的全能王——它生来就是为了搞定那些极度非标、完全无法预测、零API的长尾死局(比如修复一个Xcode里的游戏Bug)。

但对于你每天重复千遍的“标准机械动作” 呢?用Computer Use,就是 “用巡航导弹打蚊子”——猛是真猛,贵也是真贵,而且极大概率会误炸。


🚀 降维打击:HAR录制的“精确制导”逻辑

HAR (HTTP Archive) 是什么?

它不是录屏,它是浏览器 “数据底层的监控录像”
当你在浏览器里登录、点按钮、填表单时,背后其实是你的电脑向服务器发送了一堆加密的“信件”(网络请求)。

录制HAR,就是把这些“信件”的格式、内容、收件人地址,一个字母不差地拷贝下来。

这就是 HAR录制自动化 的降维打击逻辑:

不研究视觉,不依赖API文档——直接复刻你自己的“数据对话”。

过程极其暴力:

  1. 夺舍登录态:F12 → Application → Cookies,复制一串字符。OK,现在你的AI脚本拥有了你的“通行证”。
  2. 录制核心请求:在Network里点一下录制,做一个你想自动化的操作(比如“新建任务”),然后停止。
  3. AI 逆向工程:把HAR丢给AI,对它说:“嘿,把刚才那个‘创建任务的API’给我找出来,写成Python脚本。
  4. 永动开启:AI分析出了URL、Headers、Payload结构,吐出一份精确到毫秒的执行脚本。

核心差异在这一刻体现得淋漓尽致:

Gemini_Generated_Image_285jwx285jwx285j.png

维度💻 Computer Use (视觉流)🎯 HAR 录制自动化 (数据流)
核心逻辑看图识字,模拟人类鼠标键盘直接发包,模拟人类网络请求
对UI变化的容忍度零容忍 (改个样式就瞎)绝对免疫 (只要后端API没变)
执行速度30秒起步 (加载渲染、坐标定位)毫秒级 (直连服务器)
Token / 算力消耗极高 (每一帧都在烧钱)近乎为零 (一次性分析,永久复刻)
编程门槛无门槛 (理论上用嘴就行)零门槛 (你只需录HAR,AI写代码)
最适合场景一次性、跨软件、无API的罕见任务高频、重复、固定的业务流程

🧪 极限实战:15分钟 VS 30秒,用HAR再造一个飞书任务助手

光说不练假把式。我们把这两种技术拉到真实的“战场”上遛一遛。

场景假设:你是一个项目经理

每天你都要做同一件事:把“用户反馈群”里的聊天精华,手动敲到飞书多维表格里作为Bug追踪。
这件事每天花掉你30分钟,烦不胜烦,且毫无价值。

🅰️ 方案 A:使用 Codex Computer Use

  1. 操作:你对Codex说:“去飞书群里,把今天上午10点到12点标记为重要的消息,提取关键Bug,填到‘研发排期表’里。”
  2. AI执行过程
    • AI截屏,识别飞书群窗口。
    • 尝试通过图像找到“重要消息”标签(如果群聊背景换了颜色,或字体变了,可能第一步就卡住)。
    • 逐条滚动截屏,OCR识别文字。
    • 切换到多维表格,通过视觉找“添加一行”按钮。
    • 输入文字(极其缓慢)。
  3. 结果
    • 耗时:约 3-5 分钟(如果中途没点错的话)。
    • 费用:约 0.50.5 - 1.0 / 次 (取决于截屏张数)。
    • 风险:一旦飞书改版UI,这条自动化链直接报废

Gemini_Generated_Image_285jwx285jwx285j (1).png

🅱️ 方案 B:使用 HAR 录制 + Skill 脚本

  1. 操作
    • Step 1 (5分钟):打开飞书网页版 → F12 → 录制 → 点开一条消息 → 在多维表格里加一行。导出 task.har。
    • Step 2 (10分钟):把 HAR 丢给 AI:“分析这个文件,找到‘发送群消息’和‘添加表格行’的API,生成一个 Skill。”
    • Step 3 (0分钟):AI 生成的 Python 脚本上线运行。
  2. 结果
    • 耗时第一次15分钟搭建;之后每天自动执行仅需 < 3秒
    • 费用$0.000(脚本在本地运行,不发截图)。
    • 风险:即便飞书UI改得面目全非,只要后端数据接口 /open-apis/bitable/... 没变,脚本100%照常工作

哪个才是面向生产力的解法?答案不言而喻。


🔫 终极形态:当 Skill 遇见 Openclaw——你的嘴就是鼠标

上面的技术你可能觉得:“嗯,很牛,但我还是得打开终端敲命令运行脚本?”

格局小了。

HAR录制生成的 Skill,真正的最终归宿不是你的本地文件夹,而是一个叫 Openclaw 的地方。

Openclaw 是什么?你可以把它理解为 AI 的“手”和“脚”——一个专门用来运行这些 SKILL.md 和 Python 脚本的智能体环境。

整个过程会变成这样一段魔幻现实主义体验:

  1. :花 15 分钟录好 HAR,AI 帮你生成了一个名为“飞书群发助手”的 Skill 文件夹。
  2. :把这个文件夹直接拖进 Openclaw 的聊天框(或者 @ 它并关联这个技能)。
  3. :关掉所有网页,躺在椅子上,拿起手机,对着 Openclaw 说了一句人话

“Hey Openclaw,帮我在【摸鱼小分队】群里发一条消息,就说:今晚小龙虾局,老地方,我请了AI代班写代码,必到。

⚡️ 下一秒发生了什么(Codex Computer Use 做不到的事)

  • Codex Computer Use 的视角
    它睁开眼睛,开始移动鼠标,寻找飞书图标,双击,等待加载,寻找搜索框,输入“摸鱼小分队”,点击进入,寻找输入框,打字,寻找发送按钮,点击发送。
    耗时 45 秒,费用 $0.3,且有 15% 概率点进了隔壁的“工作汇报群”酿成惨剧。

  • Openclaw + HAR Skill 的视角
    它读取了你的技能说明书,发现触发词是“发消息”和“小龙虾”。

    Openclaw 内部只干了一件事:向飞书的服务器发送了一个极简的数据包。
    数据包里写着:接收群ID是“摸鱼小分队”,内容就是那段小龙虾邀约的文字。

    耗时 0.8 秒。费用 $0.000。成功率 100%。

🦞 为什么只有 HAR 流能让你“吃着小龙虾就把活干了”?

因为 Openclaw + Skill 的组合,把 AI 的执行逻辑从 “模拟人类观察” 降维到了 “机器直接执行”

  • 没有界面渲染等待:不用等网页上那个菊花转完。
  • 没有坐标计算:不用算聊天框距离屏幕左上角是 (1345, 678)。
  • 没有误触焦虑:你不用担心 Openclaw 会不小心点开你昨晚看的淘宝链接。

这就是为什么我说:

Codex Computer Use 是让 AI 替你“看电脑”,你依然得守在旁边看着它别犯错。
Openclaw + HAR Skill 是让 AI 替你“发指令”,你完全可以关机去吃小龙虾,事情照样办妥。


🎯 完整对比表:三足鼎立,谁才是真·效率之王?

维度🖱️ Codex Computer Use📡 HAR 录制🤖 HAR + Openclaw (完全体)
操作入口对 AI 描述屏幕内容对着终端敲代码对着手机说人话
执行速度分钟级 (受UI加载限制)毫秒级 (纯后端)即时响应 (边聊边干)
执行体验像在看一位老爷爷用电脑像在看黑客跑脚本像在吩咐一位隐形的贴身秘书
安全性有概率点错、误删只发指定请求只执行预设的意图
场景代入你喊 AI 去发小龙虾邀约你写了脚本定时发邀约你随口一说,Openclaw 就把小龙虾局组好了
费用💸💸💸💸💸💸💸 (几乎为0)

Gemini_Generated_Image_285jwx285jwx285j (2).png

🛠️ 从零到一:实操路线图(保姆级对比版)

好了,如果你已经被我说服,这里有一份 “HAR流”独家的极简生存指南

第一关:获得AI的“肉身”——处理认证

  • Computer Use 做法:眼睁睁看着AI笨拙地输入账号密码,或尝试保存全屏Cookies。
  • HAR流做法:直接把 Cookie 字符串复制粘贴到脚本的环境变量里。这串字符就是你浏览器的临时身份证,AI拿着它就能畅通无阻。

第二关:传授“武功秘籍”——提取关键操作

  • Computer Use 做法:费尽心机写 Prompt:“你要先看左边,找到蓝色的按钮……”

  • HAR流做法直接把 HAR 扔给 AI。

    你可以这样对 AI 说:
    “在这个HAR文件中,找出向 https://api.xxx.com/task/create 发送请求的那一条记录。把里面的数据格式提取出来,把标题和描述替换成参数,生成一段可运行的脚本。”

第三关:组装“战斗指令”——编写 Skill.md

无论哪种技术,AI都需要明确的指令。

  • Computer Use 说明书:长达10页的屏幕坐标描述和异常重试分支。
  • HAR流说明书:只需要用大白话告诉AI工作流:
    1. 先检查本地的 Cookie 文件有没有过期。
    2. 执行创建任务的脚本,标题用刚才你说的话。
    3. 如果返回成功就报喜,如果返回失败就提醒你重新登录网页。

第四关:终极部署——丢进 Openclaw

  • 将写好的技能说明和脚本放在一个文件夹。
  • 拖入 Openclaw。
  • 从此,你只需要说话。

💎 写在最后:AI 时代的打工哲学

别再盯着那炫酷的、会自己动鼠标的“桌面幽灵”羡慕不已了。

真正的生产力解放,从来不是看 AI 表演怎么费力地点点点,而是让 AI 在你看不见的地方 ,把事情办得妥妥的。

今晚就去吃小龙虾吧。
打开浏览器,录下那个你最讨厌的“发日报”操作,丢给 AI 生成一个 Skill,然后塞进 Openclaw。

明天开始,你负责思考,它负责发送。
这,才是对重复劳动最优雅的复仇。


如果这篇文章对你有帮助,欢迎分享给同样被重复操作困扰的朋友。

也欢迎在评论区聊聊:你最想自动化哪个网站的操作?或者是——你打算让 Openclaw 帮你往哪个群里发小龙虾邀约?