9 个 超绝的 AI 控制电脑 GitHub 开源项目。

557 阅读7分钟

01、通过终端控制电脑

把这个开源项目装进电脑,你的终端就成了贾维斯。这个 61K Star 的开源项目通过终端来控制电脑。

Open Interpreter 是一个让 AI 大模型在本地运行代码的解释器,支持运行 Python, JavaScript, Shell 啥的,直接运行在你的终端里。

图片

通过和它对话,它可以访问互联网,不仅仅是 Bing 搜索,而是完全自由的联网。 

操作你的本地文件,比如批量重命名、转换格式、处理 Excel。 还能控制你的电脑,比如打开浏览器、发邮件、甚至调整系统设置。

还支持接入本地的模型,比如 Ollama、Jan。

图片

比如输入:把我的系统设为深色模式,然后打开浏览器去查一下明天的天气。

它会执行 Shell 命令来修改系统设置,并调用浏览器自动化工具 Selenium 或 Playwright 去查询信息。

你还可以把一个 500MB 的 Excel 表格扔给它:分析这个表格,画出过去一年销售额的趋势图,并保存为 report.png。

不用上传云端,数据隐私绝对安全。

开源地址:https://github.com/openinterpreter/open-interpreter

02、微软开源:OmniParser

OmniParser 是微软开源的一个专门用来看屏幕的神器。

今年最新的 V2 版本,霸榜了 Hugging Face 好久,真的把 GUI Agent 的能力拉升了一个台阶。

图片

这是一个屏幕解析工具,可以把屏幕截图转化为结构化的数据,这是构建 AI 控制电脑 Agent 的核心组件。许多基于视觉的自动化项目都依赖这类技术来精准定位屏幕元素。

图片

图片

它的工作流程是这样的:Detect:通过训练好的 YOLO 模型,精准框选出屏幕上所有的可交互区域,比如按钮、输入框、图标、侧边栏啥的。即便图标非常微小,V2 版本也能精准捕捉。

Caption:利用微软自家的 Florence-2 或 BLIP-2 模型,给每一个框选出来的元素加上功能描述, 比如“这是一个搜索图标”、“这是一个设置按钮”。

Grounding:将这些坐标和描述打包喂给 GPT-4V 或 DeepSeek,让大模型知道某按钮的坐标在 (800, 600)你可以把这个开源项目理解成连接大模型大脑和电脑屏幕之间的那副高精度眼镜。

开源地址:https://github.com/microsoft/OmniParser

03、自操作计算机框架

这个开源框架,也是让多模态 AI 模型像人类一样操作计算机。现在已经斩获了 1 万的 Star。

图片

模型通过截图的方式视觉识别屏幕内容,直接调用系统的鼠标和键盘接口,使用 pyautogui 库进行交互,而非依赖后台 API。

而且这个开源项目兼容 macOS、Windows 和 Linux。

为了解决大模型看不准或点不准屏幕元素的问题,它引入了几种关键模式:

OCR 模式:生成屏幕上可点击元素的坐标哈希图。当模型决定点击某段文字时,系统能精确映射到具体坐标,显著提高了点击准确率。

Set-of-Mark (SoM) 提示:在屏幕截图上的UI元素打上数字标记 Label,让模型只需输出数字即可定位元素,类似于特斯拉自动驾驶的视觉标注逻辑。

Voice Mode:支持语音输入指令,增加交互的便捷性。

开源地址: https://github.com/OthersideAI/self-operating-computer

04、前沿的 GUI 智能体:Agent S

这个 Agent S 是目前比较前沿的开源 GUI 智能体框架。S3 是首个在 OSWorld 上超越人类水平的模型,取得了得分 72.60%。

目前已经在 GitHub 上获得 9k 的 Star。

图片

与普通脚本不一样,Agent-S 引入了类似人类的认知架构:

经验增强的层次化规划:它不是盲目地一步步操作,而是先搜索外部知识(如在线教程)和检索内部记忆,将大任务拆解为子任务。

Agent-计算机接口:它不直接看原始像素,而是通过一个中间层更精确地感知 GUI 元素,增强了模型对屏幕的理解能力。

双重记忆机制:叙事记忆,存储高层次的任务经验;情景记忆,存储具体的步骤操作。它用得越多,越擅长处理复杂任务。

开源地址: https://github.com/simular-ai/Agent-S

05、微软开源:UFO

之前提到过,这个叫 UFO 的框架也是微软开源的。

这个开源项目是专为 Windows 生态深度定制的原生级智能体系统。它利用微软对自家系统的理解,实现了比普通视觉方案更深层的控制。

图片

不同于视觉方案的框架仅依赖截图+鼠标模拟,UFO 结合了视觉与底层系统接口 Windows UI Automation, Win32, COM API。

它不仅看屏幕,还能直接读控件树。它能准确知道一个按钮的名字、状态和隐藏属性,点击准确率极高。

而且,它专门针对 Windows 常用软件 Office 全家桶、文件资源管理器 啥的进行了优化,能理解应用程序内部的逻辑。

图片

它采用双代理架构(AppAgent 和 OSWorld Agent),深入理解 Windows 应用程序的 UI 结构,跨多个应用程序执行复杂请求,比如从 PPT 中提取内容并发邮件。

专为 Windows 优化,能够利用 Windows 原生 API 进行更稳定的控制。

开源地址: https://github.com/microsoft/UFO

06、AI 玩荒野大镖客

Cradle 是由智源研究院 (BAAI)  团队开发的一个开源项目。

图片

让 AI 智能体能够像人类一样,仅通过屏幕截图和标准输入/输出接口来操作任何软件和游戏,而不需要依赖后端的 API 或内部代码访问。

可以玩荒野大镖客、城市天际线,也会用飞书、Chrome、剪映软件。

图片

它提供了一个标准化的框架,将控制过程分为几个关键模块:

感知:提取屏幕中的关键信息,识别 UI 界面、图标、文本或游戏中的 3D 场景。

决策与规划: 根据当前任务目标和屏幕状态,规划下一步行动。自我反思,如果操作失败,它会分析原因并修正策略。

记忆系统:短期记忆,记录最近的操作序列和截图;长期记忆, 存储成功经验和工具使用手册(RAG),以便在类似场景下快速调用。

执行: 将规划转换为具体的键盘和鼠标指令。

开源地址: https://github.com/BAAI-Agents/Cradle

07、OS-Copilot

一个构建通用操作系统代理的框架。强调 Agent 的自我学习和自我改进能力,能够处理从未见过的应用。

图片

其核心 Agent FRIDAY 能够通过自我改进机制来学习如何操作 Excel、PPT 以及浏览网页。

这个开源项目的目标是创建一个无缝集成到操作系统中的个人助理。

开源地址: https://github.com/OS-Copilot/OS-Copilot

08、ShowUI

这是一个轻量级的端到端视觉-语言-动作(Vision-Language-Action)模型,专为 GUI 智能体设计。

图片

它想解决大模型在处理 UI 界面时的高延迟和计算成本问题,提供更快速、更精准的屏幕元素定位和操作。

模型小巧高效,适合在本地部署进行低延迟的 UI 自动化控制。

开源地址: https://github.com/showlab/ShowUI

09、UI-TARS Desktop

之前介绍过,字节跳动开源的基于 UI-TARS 视觉语言模型的 GUI 智能体桌面应用。

它允许用户通过自然语言直接控制 Windows 或 macOS 电脑。

该项目结合了端到端的视觉模型,无需复杂的中间代码解析,直接像人类一样看屏幕并操作鼠标键盘。

图片

特点是开箱即用,支持远程计算机控制,是目前较新的高性能 GUI Agent 实现。

开源地址: https://github.com/bytedance/UI-TARS-desktop