视觉降维打击:Claude Computer-Use MCP 的像素级自动化边界

18 阅读3分钟

在前两篇文章中,我们探讨了基于屏幕绝对坐标的 cliclick,以及深入系统底层、犹如“透视眼”一般的 AXUIElement。前者脆弱,后者则受限于应用的渲染架构(如剪映的自研画布“黑盒”)。

那么,当底层 API 不通,坐标又会变动时,终极解法是什么?近期大火的 Claude Computer-Use MCP 给出了一份简单粗暴却极具降维打击意味的答卷:像人类一样直接看屏幕,然后在像素级别操控它。

1. 降维打击:完全剥离 API 的“像素级”控制

Computer-Use 的核心逻辑非常直白:它不需要知道你的软件是用 AppKit、SwiftUI 还是 Electron 写的。它只做两件事:

  1. 截图:获取当前屏幕的视觉状态。
  2. 多模态理解与坐标推理:通过大模型(如 Claude 3.5 Sonnet)分析截图,理解 UI 意图,并计算出目标按钮或输入框精确的 (X, Y) 像素坐标,最后模拟键鼠点击。

因为完全剥离了操作系统底层的依赖,这种方案实现了真正的跨平台、无视渲染引擎的普适性自动化。只要人眼能在屏幕上看到,模型就能点到。

image.png

2. 核心突围:Batch (批处理) 带来的效率跃升

采用纯视觉自动化的最大痛点在于高昂的延迟:截图 -> 上传模型 -> 视觉推理 -> 返回动作,一个完整的循环(Round-trip)可能需要几秒钟。如果每移动一次鼠标、每点一个按钮都要走这个循环,自动化的体验将极其灾难。

为了突破这个效率瓶颈,Claude Computer-Use MCP 引入了动作批处理 (Batch) 能力。在一个调用周期内,AI 大脑在分析完一张截图后,可以直接规划并返回一连串的动作指令。例如: [移动到 (x1,y1), 点击左键, 移动到 (x2,y2), 键入 'hello', 按下 Enter]

本地的执行器在收到这个批处理数组后,会在毫秒级内连续完成这些机械动作。这种设计极大地掩盖了模型网络推理的延迟感,使得复杂的表单填写、文件拖拽等连续交互动作变得行云流水。

3. 视觉方案的硬伤与边界

然而,即便是最顶级的视觉模型,纯粹的像素级自动化依然有着明显的边界:

  • 脆弱的坐标漂移与并发冲突:在从“截图”到“执行”的这几秒延迟中,如果用户碰了鼠标,或者屏幕上弹出了一个通知遮挡了目标,之前算出的坐标就会点错。
  • 缺乏系统级的“语义深度”:它就像一个视力极好的旁观者,但没有读心术。与 AXUIElement 能直接通过代码读出滑块的精确数值(如 58%)不同,视觉模型只能靠看像素来“猜”当前进度;对于隐藏在滚动条下方的长列表元素,视觉模型更是束手无策,必须先执行一次滚动动作才能“看见”。
  • 昂贵的算力开销:每一次操作都需要消耗大量 Token 对高分辨率图像进行处理,成本远高于传统的脚本语言。

4. 总结

Claude 的 Computer-Use MCP 为我们展示了“多模态视觉 Agent”接管电脑桌面的巨大潜力。面对渲染引擎封闭、无 API 可用的“黑盒”应用,它是无可替代的破局者。但若是追求极致的执行速度与工程稳定性,单纯的视觉方案依然力有不逮。在未来的超级 Agent 架构中,必定是 “视觉定位 (Computer-Use) + 底层树状结构解析 (AXUIElement/DOM)” 的双剑合璧。