现在所有的 AI Computer Use 方案(Claude Computer Use、OpenClaw 等)都在做同一件事:截屏 → 发给 Vision 模型 → 模型猜坐标 → 点击 → 再截屏确认。
一次点击花 $0.02,延迟 3 秒,还可能猜错位置。
但其实 macOS 已经把答案准备好了。
苹果为盲人做了一套 Accessibility API(辅助功能接口),每个 app 里的按钮、输入框、菜单项的名字、坐标、可用操作全部暴露在一棵 UI 树里。直接读就行,不需要截屏,不需要 Vision 模型。
我把它封装成了一个 Python 包 + MCP Server,开源了:
pip install orax-eye
from orax_eye import OraxEye
eye = OraxEye()
# 50ms 拿到完整 UI 树
elements = eye.scan_app("Notes")
# 精确点击,坐标是系统给的不是猜的
eye.click_element("Notes", "New Note")
# 支持中文、emoji
eye.type_text("你好世界 🌍")
也可以作为 MCP Server 直接接入 Claude Code / Cursor:
{
"mcpServers": {
"orax-eye": {
"command": "python3",
"args": ["-m", "orax_eye.mcp_server"]
}
}
}
18 个工具:扫描 UI 树、点击、右键、双击、滚动、打字、快捷键、剪贴板读写等,覆盖完整的电脑操控场景。
对比:
| 截屏方案 | orax-eye | |
|---|---|---|
| 单次成本 | $0.01-0.03 | $0.00 |
| 延迟 | 2-5 秒 | 30-80ms |
| 输出 | 像素(需要 Vision 模型) | 结构化 JSON |
| 准确率 | 猜坐标 | 系统精确坐标 |
| 后台应用 | 不支持 | 支持 |
| 每月成本(1000次/天) | $300-900 | $0 |
MIT 协议,纯 Python,无外部依赖。
GitHub:github.com/oraxhq/orax…
PyPI:pypi.org/project/ora…
目前支持 macOS,Windows 和 Linux 在路线图中。
欢迎试用,有问题随时提 issue