别再用截屏让 AI 操控电脑了，macOS Accessibility API 零成本做到同样的事现在所有的 AI Co

现在所有的 AI Computer Use 方案（Claude Computer Use、OpenClaw 等）都在做同一件事：截屏 → 发给 Vision 模型 → 模型猜坐标 → 点击 → 再截屏确认。

一次点击花 $0.02，延迟 3 秒，还可能猜错位置。

但其实 macOS 已经把答案准备好了。

苹果为盲人做了一套 Accessibility API（辅助功能接口），每个 app 里的按钮、输入框、菜单项的名字、坐标、可用操作全部暴露在一棵 UI 树里。直接读就行，不需要截屏，不需要 Vision 模型。

我把它封装成了一个 Python 包 + MCP Server，开源了：

pip install orax-eye

from orax_eye import OraxEye
eye = OraxEye()

# 50ms 拿到完整 UI 树
elements = eye.scan_app("Notes")

# 精确点击，坐标是系统给的不是猜的
eye.click_element("Notes", "New Note")

# 支持中文、emoji
eye.type_text("你好世界 🌍")

也可以作为 MCP Server 直接接入 Claude Code / Cursor：

{
  "mcpServers": {
    "orax-eye": {
      "command": "python3",
      "args": ["-m", "orax_eye.mcp_server"]
    }
  }
}

18 个工具：扫描 UI 树、点击、右键、双击、滚动、打字、快捷键、剪贴板读写等，覆盖完整的电脑操控场景。

对比：

	截屏方案	orax-eye
单次成本	$0.01-0.03	$0.00
延迟	2-5 秒	30-80ms
输出	像素（需要 Vision 模型）	结构化 JSON
准确率	猜坐标	系统精确坐标
后台应用	不支持	支持
每月成本（1000次/天）	$300-900	$0

MIT 协议，纯 Python，无外部依赖。

GitHub：github.com/oraxhq/orax…
PyPI：pypi.org/project/ora…

目前支持 macOS，Windows 和 Linux 在路线图中。

欢迎试用，有问题随时提 issue