GitHub 悄悄起飞的开源项目,想让 AI 接管你的电脑

0 阅读6分钟

随着 OpenClaw 的爆火,一种名为 Computer-use-Agent(CUA)的技术正在 GitHub 上悄然崛起。它让 AI 能够像人一样,操作浏览器和各类应用程序,从而让 AI 完成更多类型的任务。

尽管目前市面上已有一些令人惊艳的技术尝试,但对于大多数开发者和企业而言,在实际应用中依然面临着两难的选择:

  • 要么是核心技术处于“闭源”状态,难以深度定制
  • 要么是许多开源项目仍停留在“跑通一次 Demo”的实验阶段

今天 HelloGitHub 带来了一款让 AI 大模型像人类一样,看电脑屏幕+动手操作的开源工具——TuriX。仅需简单的自然语言指令,就能自动化操作浏览器和各类应用程序。

GitHub 地址:github.com/TurixAI/Tur…

一、TuriX 介绍

TuriX 是一款由人工智能驱动的数字助手,能让你在各种应用程序和系统中实现任务自动化,适用于 Windows、Linux 和 macOS 系统。它不同于传统 RPA 和基于 API 的操作方式,只要人能点到的地方 TuriX 也能点,实现真正的跨应用自动化。

用户只需通过自然语言描述任务,TuriX 就能让 AI 自动规划并执行,即便目标应用不提供 API 也没事儿。

TuriX 不仅提供开箱即用的桌面应用,还有专门的 skill 技能包,可以方便集成到 OpenClaw 或 Claude Code。

ClawHub 地址:clawhub.ai/Tongyu-Yan/…

TuriX 专注于桌面环境的自动化操作,在 Mac 上可以操作浏览器、文档类应用、邮件/聊天应用、进行系统设置等。在 Windows 上支持 GUI 自动化、浏览器操作,比如自动搜索 YouTube 视频并点赞。

二、快速上手

2.1 桌面应用

目前 TuriX 提供了 macOS 和 Windows 桌面应用,通过官网(turix.ai)即可下载。

2.2 接入 OpenClaw

TuriX 官网还提供了 skill 安装包,下载解压后可以查看 skill 所有文件:

turix-cua/
├── SKILL.md
├── agents/
├── assets/
├── references/
└── scripts/
└── bin/
├── turix-cua-darwin-arm64
└── turix-cua-windows-amd64.exe

接下来只需将解压后的 turix-cua 放到 OpenClaw 指定目录:

# macOS / Linux
mkdir -p ~/.openclaw/workspace/skills
cp -R turix-cua ~/.openclaw/workspace/skills/

# Windows PowerShell
mkdir "$HOME\.openclaw\workspace\skills"
Copy-Item -Path ".\turix-cua" -Destination
"$env:USERPROFILE\.openclaw\workspace\skills" -Recurse -Force

目的就是将 skill 放到 ~/.openclaw/workspace/skills/turix-cua/SKILL.md

通常安装好 skill 后,OpenClaw 并不会立即加载。需要前往 Web 页面,点击“New session”新建一个对话窗口,这样通常就能够加载该技能。但如果仍然没有加载,可以执行 openclaw gateway restart 重启命令。

想确认是否安装成功?直接问 OpenClaw:“我当前有哪些技能”,OpenClaw 会回复你当前的技能库。

回答中如果包含 turix-cua 技能,就代表 OpenClaw 已成功安装该技能。

需要注意 turix-cua skill 不是纯前端插件,它依赖本机已有 TuriX 客户端环境。使用前需要确认:

  1. 本机已安装 TuriX 客户端
  2. 本机已登录 TuriX 客户端且客户端且处于运行状态

2.3 Python 脚本使用方式

除了上面两种开箱即用的使用方式外,TuriX 还专为开发者提供了 Python 脚本调用的方式。

conda create -n turix_env python=3.12
conda activate turix_env
pip install -r requirements.txt

通过这种方式,不仅可以自定义 LLM API,还可以定制开发出更加顺手的自动化操作电脑的工具。

if provider == "name_you_want":
    return ChatOpenAI(
        model="gpt-4.1-mini", api_key=api_key, temperature=0.3
    )

三、技术解读

TuriX 本质上是一个基于 VLM 的 Agent 框架,通过模仿人类的 GUI 交互行为执行桌面操作。它为了解决大模型上下文等问题,采用了 TuriX Parallelum 的四角色协同架构。

  • 规划者:将用户的指令拆解为可循序渐进的执行计划,帮助执行者更好地理解用户的意图。
  • 执行者:理解步骤计划,并基于当前屏幕截图等信息,执行精确的桌面操作。
  • 评估者:通过对比执行操作前后的屏幕截图,判断执行是否成功,如果失败则指挥执行者重试。
  • 监督者:当评估者检测到操作多次失败时,监督者会分析所有屏幕截图、状态和历史并重新规划,防止死循环。

除了角色分工,TuriX 还通过并行执行流水线的方式,即执行者假设前一步成功的基础上去执行第 n 步操作时,评估者同时对第 n-1 步进行评估,在保证执行率成功率的同时不降低执行效率。

在提高执行准确率方面,TuriX 基于 macOS 的 AXUIElement 框架,将屏幕上的组件、边框位置等信息转成结构化文本数据,与截图一同输入给大模型,从而能够输出准确率更高的节点索引。

在持续打磨并追求高执行成功率的过程中,TuriX 团队发现现在多数的 VLM 模型无法达到像素级的 GUI 操作,所以他们选择基于 Qwen2.5-VL-72B 模型进行微调,微调后的模型在桌面自动化任务测试中表现更加出色。

四、最后

除了 TuriX 在易用性、准确率,以及提升 OpenClaw 操作应用效果上带来的惊喜,在 Issues 和社交媒体上逛了一圈我发现 TuriX 作为一个开源项目,他们的“听劝”(倾听用户的声音)也给我留下了深刻的印象。每一条 Issue 他们都会认真对待并及时回复,你可以去提个 issue 感受下他们的热情~(TuriX 的开发同学不要打我 🤣)

有人在 Issue 里问:“TuriX 是否支持 Linux 系统?如果支持,我该如何安装?”没过多久,TuriX Linux 版就正式上线了——不是画饼,是真的能跑。在 Facebook 上,有用户分享了一段视频:他用 TuriX 自动化处理了 30 份发票并导出报表,全程没管。配文只有一句话:“喝个咖啡的时间。” 还有就是在交流群有人询问 TuriX 如何接入本地模型,官方技术人员的耐心指导。

这种“听劝”是以开放和服务用户的姿态去迭代,每一个 Star、Issue、PR 都会让 TuriX 变得更好,最终和开源社区共同打造出一个真正能干活、让咱们早点下班的“AI 帮手”。

GitHub 地址:github.com/TurixAI/Tur…

一个愿意倾听用户声音、持续快速迭代的开源项目,也许用不了太久,TuriX 的悄然崛起就会变成一件大家喜闻乐见的事情。