视觉降维打击：Claude Computer-Use MCP 的像素级自动化边界告别了对底层 API 的执念，大模型时代

在前两篇文章中，我们探讨了基于屏幕绝对坐标的 cliclick，以及深入系统底层、犹如“透视眼”一般的 AXUIElement。前者脆弱，后者则受限于应用的渲染架构（如剪映的自研画布“黑盒”）。

那么，当底层 API 不通，坐标又会变动时，终极解法是什么？近期大火的 Claude Computer-Use MCP 给出了一份简单粗暴却极具降维打击意味的答卷：像人类一样直接看屏幕，然后在像素级别操控它。

1. 降维打击：完全剥离 API 的“像素级”控制

Computer-Use 的核心逻辑非常直白：它不需要知道你的软件是用 AppKit、SwiftUI 还是 Electron 写的。它只做两件事：

截图：获取当前屏幕的视觉状态。
多模态理解与坐标推理：通过大模型（如 Claude 3.5 Sonnet）分析截图，理解 UI 意图，并计算出目标按钮或输入框精确的 (X, Y) 像素坐标，最后模拟键鼠点击。

因为完全剥离了操作系统底层的依赖，这种方案实现了真正的跨平台、无视渲染引擎的普适性自动化。只要人眼能在屏幕上看到，模型就能点到。

2. 核心突围：Batch (批处理) 带来的效率跃升

采用纯视觉自动化的最大痛点在于高昂的延迟：截图 -> 上传模型 -> 视觉推理 -> 返回动作，一个完整的循环（Round-trip）可能需要几秒钟。如果每移动一次鼠标、每点一个按钮都要走这个循环，自动化的体验将极其灾难。

为了突破这个效率瓶颈，Claude Computer-Use MCP 引入了动作批处理 (Batch) 能力。在一个调用周期内，AI 大脑在分析完一张截图后，可以直接规划并返回一连串的动作指令。例如： [移动到 (x1,y1), 点击左键, 移动到 (x2,y2), 键入 'hello', 按下 Enter]

本地的执行器在收到这个批处理数组后，会在毫秒级内连续完成这些机械动作。这种设计极大地掩盖了模型网络推理的延迟感，使得复杂的表单填写、文件拖拽等连续交互动作变得行云流水。

3. 视觉方案的硬伤与边界

然而，即便是最顶级的视觉模型，纯粹的像素级自动化依然有着明显的边界：

脆弱的坐标漂移与并发冲突：在从“截图”到“执行”的这几秒延迟中，如果用户碰了鼠标，或者屏幕上弹出了一个通知遮挡了目标，之前算出的坐标就会点错。
缺乏系统级的“语义深度”：它就像一个视力极好的旁观者，但没有读心术。与 AXUIElement 能直接通过代码读出滑块的精确数值（如 58%）不同，视觉模型只能靠看像素来“猜”当前进度；对于隐藏在滚动条下方的长列表元素，视觉模型更是束手无策，必须先执行一次滚动动作才能“看见”。
昂贵的算力开销：每一次操作都需要消耗大量 Token 对高分辨率图像进行处理，成本远高于传统的脚本语言。

4. 总结

Claude 的 Computer-Use MCP 为我们展示了“多模态视觉 Agent”接管电脑桌面的巨大潜力。面对渲染引擎封闭、无 API 可用的“黑盒”应用，它是无可替代的破局者。但若是追求极致的执行速度与工程稳定性，单纯的视觉方案依然力有不逮。在未来的超级 Agent 架构中，必定是 “视觉定位 (Computer-Use) + 底层树状结构解析 (AXUIElement/DOM)” 的双剑合璧。