别再用截屏让 AI 操控电脑了,macOS Accessibility API 零成本做到同样的事

0 阅读1分钟

现在所有的 AI Computer Use 方案(Claude Computer Use、OpenClaw 等)都在做同一件事:截屏 → 发给 Vision 模型 → 模型猜坐标 → 点击 → 再截屏确认。

一次点击花 $0.02,延迟 3 秒,还可能猜错位置。

但其实 macOS 已经把答案准备好了。

苹果为盲人做了一套 Accessibility API(辅助功能接口),每个 app 里的按钮、输入框、菜单项的名字、坐标、可用操作全部暴露在一棵 UI 树里。直接读就行,不需要截屏,不需要 Vision 模型。

我把它封装成了一个 Python 包 + MCP Server,开源了:

pip install orax-eye
from orax_eye import OraxEye
eye = OraxEye()

# 50ms 拿到完整 UI 树
elements = eye.scan_app("Notes")

# 精确点击,坐标是系统给的不是猜的
eye.click_element("Notes", "New Note")

# 支持中文、emoji
eye.type_text("你好世界 🌍")

也可以作为 MCP Server 直接接入 Claude Code / Cursor:

{
  "mcpServers": {
    "orax-eye": {
      "command": "python3",
      "args": ["-m", "orax_eye.mcp_server"]
    }
  }
}

18 个工具:扫描 UI 树、点击、右键、双击、滚动、打字、快捷键、剪贴板读写等,覆盖完整的电脑操控场景。

对比:

截屏方案orax-eye
单次成本$0.01-0.03$0.00
延迟2-5 秒30-80ms
输出像素(需要 Vision 模型)结构化 JSON
准确率猜坐标系统精确坐标
后台应用不支持支持
每月成本(1000次/天)$300-900$0

MIT 协议,纯 Python,无外部依赖。

GitHub:github.com/oraxhq/orax…
PyPI:pypi.org/project/ora…

目前支持 macOS,Windows 和 Linux 在路线图中。

欢迎试用,有问题随时提 issue