字节开源:33.7k+看懂屏幕会操作电脑的AI助手来了

70 阅读7分钟

说个场景:你跟电脑说"帮我把这份 PDF 里的表格提取出来,整理成 Excel",然后 AI 真的打开 PDF 阅读器,滚动页面,找到表格,复制粘贴到 Excel 里,还帮你调好了格式。

听着像科幻?UI-TARS Desktop 已经干上这事了。

UI-TARS Desktop 是字节跳动开源的桌面级 GUI Agent(图形界面智能体)。说白了,就是让 AI 像人一样"看"屏幕、理解界面、操作鼠标键盘

Github:

github.com/bytedance/U…

一句话说清楚:UI-TARS Desktop 是什么?

UI-TARS Desktop 相当于一个能看懂屏幕、会操作电脑的 AI 智能体

它不像 ChatGPT 那样只能聊天,也不像传统脚本那样只能按固定流程执行。它能(截图并理解屏幕内容)、(分析当前状态决定下一步)、(控制鼠标键盘完成操作)。简单说,它就像坐在你电脑前的"数字员工",你告诉它要做什么,它自己想办法完成。


为什么需要 GUI Agent?

传统自动化工具(比如 RPA)有个致命缺陷:只能按预设流程执行,界面一变或者遇到意外情况就傻眼了。

比如你要自动化"在京东买东西",传统脚本是固定点击坐标(第3个按钮),一旦页面改版按钮位置变了,脚本就挂了。而 GUI Agent 是看屏幕找到"搜索框"、输入商品名、找到"搜索按钮"、点击——不依赖固定坐标,而是像人一样理解界面语义,所以更灵活、更智能。


核心架构:三剑客协作

UI-TARS Desktop 的工作流程可以简化为三个核心组件:

Operator(操作员)负责与电脑硬件交互,就干两件事:截图(把屏幕内容拍下来传给 AI)和执行(根据 AI 指令操作鼠标键盘)。目前支持多种 Operator,包括基于 nut-js 的 NutJSOperator(支持 Windows/Mac/Linux 桌面自动化)、专门操作浏览器的 WebOperator,以及支持手机设备控制的 MobileOperator。

**UI-TARS Model(大脑)**是字节跳动自研的多模态大模型,专门训练来理解 GUI 界面。输入是截图加任务描述再加历史操作记录,输出是下一步要执行的动作,比如"点击坐标 (100, 200)"或"输入文本'hello'"。UI-TARS 模型有两个版本,1.5 是基础版支持常见 GUI 操作,1.6 是增强版支持更复杂的推理和规划。

**GUI Agent(协调员)**负责把 Operator 和 Model 串联起来,管理整个任务流程:接收用户指令,然后循环执行截图传给模型、获取动作、执行动作,最后判断任务是否完成。


工作流程:一个循环搞定一切

UI-TARS Desktop 的执行流程:

用户输入任务指令
    ↓
GUI Agent 启动
    ↓
循环开始:
  1. Operator 截图(获取当前屏幕状态)
  2. 把截图 + 任务 + 历史记录传给 UI-TARS Model
  3. Model 分析并返回下一步动作(如"点击搜索框"4. Operator 执行动作
  5. 判断是否完成任务?
     - 否 → 继续循环
     - 是 → 结束

这个循环一直跑,直到任务完成或者遇到无法处理的情况。


核心能力:不只是"点击"那么简单

UI-TARS Desktop 支持的操作类型包括鼠标操作(单击、双击、右键点击、拖拽选择文本或移动文件、悬停显示提示)、键盘操作(输入文本、快捷键如 Ctrl+C/V、组合键)、滚动操作(页面上下滚动和横向滚动),以及等待与观察(等待页面加载、观察界面变化)。这些基础操作组合起来,就能完成复杂任务:填表单、做报表、发邮件、甚至玩游戏。


两大应用场景:本地操作 + 远程控制

UI-TARS Desktop 提供两种使用模式。**Local Operator(本地操作员)**让 AI 直接控制你本地的电脑,适合自动化日常办公任务、批量处理文件、测试软件界面。**Remote Operator(远程操作员)**让 AI 控制远程的电脑或浏览器,适合远程服务器管理、云端自动化测试、跨设备协作。值得一提的是,Remote Browser Operator 完全免费,不需要任何配置,点击就能用。


快速上手

UI-TARS Desktop 提供多种使用方式,从简单到复杂。

方式一:桌面应用(最简单) 直接下载安装桌面版,图形界面操作,适合非技术用户。

方式二:CLI 命令行

npx @ui-tars/cli start

然后输入你的配置(baseURL、apiKey、model),就可以用命令行控制电脑了。

方式三:SDK 集成(开发者)

import { GUIAgent } from '@ui-tars/sdk';
import { NutJSOperator } from '@ui-tars/operator-nut-js';

const guiAgent = new GUIAgent({
  model: {
    baseURL: 'https://your-model-endpoint',
    apiKey: 'your-api-key',
    model: 'ui-tars-1.5'
  },
  operator: new NutJSOperator(),
});

// 运行任务
await guiAgent.run('打开 Chrome,搜索"天气"');

方式四:Agent TARS(高级版) Agent TARS 是字节跳动基于 UI-TARS 构建的通用多模态 AI Agent Stack,提供更丰富的功能,包括 CLI 和 Web UI 两种界面、MCP 工具集成、多 Agent 协作。


实际应用场景

自动化办公:"帮我把这 100 个 PDF 里的表格都提取出来,汇总到一个 Excel 里。"

软件测试:"帮我测试这个登录功能,尝试各种异常情况:空密码、错误密码、SQL 注入……"

数据采集:"去这个网站,把前 10 页的商品名称和价格都爬下来。"

远程协助:"帮我远程操作服务器,重启那个挂掉的服务。"

无障碍辅助:帮助视障用户操作电脑,语音控制完成各种任务。


技术亮点

纯视觉驱动不需要 API 接口和后端配合,只要能看到界面就能操作。跨平台支持让 Windows、Mac、Linux 都能用,还支持浏览器和手机。多模态理解不仅理解文字,还能理解按钮、图标、图片等视觉元素。反思学习让 UI-TARS 模型通过迭代训练和反思调优,能从错误中学习,遇到意外情况也能自适应。开源生态完全开源,社区活跃,有详细的文档和示例。


与同类项目的区别

项目特点适用场景
UI-TARS Desktop纯视觉驱动、开源、字节出品通用 GUI 自动化
Claude Computer UseClaude 官方功能、云端运行简单任务演示
OpenAI Operator浏览器专用、云端运行网页自动化
RPA 工具固定流程、企业级大规模重复任务

UI-TARS Desktop 的优势在于:开源免费 + 本地运行 + 纯视觉理解


适合谁用?

适合这些人:想自动化重复性电脑操作的个人用户、需要 GUI 自动化测试的开发者、对 AI Agent 感兴趣的技术爱好者、想构建自动化工作流的产品团队。

不适合这些人:对 AI 控制电脑有安全顾虑的用户、只需要简单脚本就能搞定的问题(杀鸡用牛刀)、没有一定技术基础不想折腾的用户。


安全与隐私提醒

让 AI 控制电脑是一把双刃剑。

风险包括 AI 可能会误操作删除重要文件、如果模型被攻击可能导致安全问题、截图上传可能泄露敏感信息。

建议是在虚拟机或沙箱环境中运行、不要给 AI 管理员权限、敏感操作前人工确认、使用本地模型避免数据上传云端。

Github

github.com/bytedance/U…

总结:AI 从"聊天"到"动手"

UI-TARS Desktop 代表了一个重要趋势:AI 正在从"能说"进化到"能做"

以前的 AI 只能给你建议、帮你写代码,现在它可以直接操作软件、完成任务。这就像是 AI 从"顾问"变成了"员工"。

当然,这技术还在早期。操作成功率、安全性、复杂任务规划,都还有提升空间。但方向是明确的——未来的 AI 不仅能理解世界,还能改变世界。


关注

如果这篇文章对你有帮助,欢迎点赞、在看、转发三连。我们会持续分享更多 AI 工具和实战经验的解读。