字节开源：33.7k+看懂屏幕会操作电脑的AI助手来了UI-TARS Desktop 是字节跳动开源的桌面级 GUI A

说个场景：你跟电脑说"帮我把这份 PDF 里的表格提取出来，整理成 Excel"，然后 AI 真的打开 PDF 阅读器，滚动页面，找到表格，复制粘贴到 Excel 里，还帮你调好了格式。

听着像科幻？UI-TARS Desktop 已经干上这事了。

UI-TARS Desktop 是字节跳动开源的桌面级 GUI Agent（图形界面智能体）。说白了，就是让 AI 像人一样"看"屏幕、理解界面、操作鼠标键盘。

Github:

github.com/bytedance/U…

一句话说清楚：UI-TARS Desktop 是什么？

UI-TARS Desktop 相当于一个能看懂屏幕、会操作电脑的 AI 智能体。

它不像 ChatGPT 那样只能聊天，也不像传统脚本那样只能按固定流程执行。它能看（截图并理解屏幕内容）、想（分析当前状态决定下一步）、动（控制鼠标键盘完成操作）。简单说，它就像坐在你电脑前的"数字员工"，你告诉它要做什么，它自己想办法完成。

为什么需要 GUI Agent？

传统自动化工具（比如 RPA）有个致命缺陷：只能按预设流程执行，界面一变或者遇到意外情况就傻眼了。

比如你要自动化"在京东买东西"，传统脚本是固定点击坐标（第3个按钮），一旦页面改版按钮位置变了，脚本就挂了。而 GUI Agent 是看屏幕找到"搜索框"、输入商品名、找到"搜索按钮"、点击——不依赖固定坐标，而是像人一样理解界面语义，所以更灵活、更智能。

核心架构：三剑客协作

UI-TARS Desktop 的工作流程可以简化为三个核心组件：

Operator（操作员）负责与电脑硬件交互，就干两件事：截图（把屏幕内容拍下来传给 AI）和执行（根据 AI 指令操作鼠标键盘）。目前支持多种 Operator，包括基于 nut-js 的 NutJSOperator（支持 Windows/Mac/Linux 桌面自动化）、专门操作浏览器的 WebOperator，以及支持手机设备控制的 MobileOperator。

**UI-TARS Model（大脑）**是字节跳动自研的多模态大模型，专门训练来理解 GUI 界面。输入是截图加任务描述再加历史操作记录，输出是下一步要执行的动作，比如"点击坐标 (100, 200)"或"输入文本'hello'"。UI-TARS 模型有两个版本，1.5 是基础版支持常见 GUI 操作，1.6 是增强版支持更复杂的推理和规划。

**GUI Agent（协调员）**负责把 Operator 和 Model 串联起来，管理整个任务流程：接收用户指令，然后循环执行截图传给模型、获取动作、执行动作，最后判断任务是否完成。

工作流程：一个循环搞定一切

UI-TARS Desktop 的执行流程：

用户输入任务指令
    ↓
GUI Agent 启动
    ↓
循环开始：
  1. Operator 截图（获取当前屏幕状态）
  2. 把截图 + 任务 + 历史记录传给 UI-TARS Model
  3. Model 分析并返回下一步动作（如"点击搜索框"）
  4. Operator 执行动作
  5. 判断是否完成任务？
     - 否 → 继续循环
     - 是 → 结束

这个循环一直跑，直到任务完成或者遇到无法处理的情况。

核心能力：不只是"点击"那么简单

UI-TARS Desktop 支持的操作类型包括鼠标操作（单击、双击、右键点击、拖拽选择文本或移动文件、悬停显示提示）、键盘操作（输入文本、快捷键如 Ctrl+C/V、组合键）、滚动操作（页面上下滚动和横向滚动），以及等待与观察（等待页面加载、观察界面变化）。这些基础操作组合起来，就能完成复杂任务：填表单、做报表、发邮件、甚至玩游戏。

两大应用场景：本地操作 + 远程控制

UI-TARS Desktop 提供两种使用模式。**Local Operator（本地操作员）**让 AI 直接控制你本地的电脑，适合自动化日常办公任务、批量处理文件、测试软件界面。**Remote Operator（远程操作员）**让 AI 控制远程的电脑或浏览器，适合远程服务器管理、云端自动化测试、跨设备协作。值得一提的是，Remote Browser Operator 完全免费，不需要任何配置，点击就能用。

快速上手

UI-TARS Desktop 提供多种使用方式，从简单到复杂。

方式一：桌面应用（最简单） 直接下载安装桌面版，图形界面操作，适合非技术用户。

方式二：CLI 命令行

npx @ui-tars/cli start

然后输入你的配置（baseURL、apiKey、model），就可以用命令行控制电脑了。

方式三：SDK 集成（开发者）

import { GUIAgent } from '@ui-tars/sdk';
import { NutJSOperator } from '@ui-tars/operator-nut-js';

const guiAgent = new GUIAgent({
  model: {
    baseURL: 'https://your-model-endpoint',
    apiKey: 'your-api-key',
    model: 'ui-tars-1.5'
  },
  operator: new NutJSOperator(),
});

// 运行任务
await guiAgent.run('打开 Chrome，搜索"天气"');

方式四：Agent TARS（高级版） Agent TARS 是字节跳动基于 UI-TARS 构建的通用多模态 AI Agent Stack，提供更丰富的功能，包括 CLI 和 Web UI 两种界面、MCP 工具集成、多 Agent 协作。

实际应用场景

自动化办公："帮我把这 100 个 PDF 里的表格都提取出来，汇总到一个 Excel 里。"

软件测试："帮我测试这个登录功能，尝试各种异常情况：空密码、错误密码、SQL 注入……"

数据采集："去这个网站，把前 10 页的商品名称和价格都爬下来。"

远程协助："帮我远程操作服务器，重启那个挂掉的服务。"

无障碍辅助：帮助视障用户操作电脑，语音控制完成各种任务。

技术亮点

纯视觉驱动不需要 API 接口和后端配合，只要能看到界面就能操作。跨平台支持让 Windows、Mac、Linux 都能用，还支持浏览器和手机。多模态理解不仅理解文字，还能理解按钮、图标、图片等视觉元素。反思学习让 UI-TARS 模型通过迭代训练和反思调优，能从错误中学习，遇到意外情况也能自适应。开源生态完全开源，社区活跃，有详细的文档和示例。

与同类项目的区别

项目	特点	适用场景
UI-TARS Desktop	纯视觉驱动、开源、字节出品	通用 GUI 自动化
Claude Computer Use	Claude 官方功能、云端运行	简单任务演示
OpenAI Operator	浏览器专用、云端运行	网页自动化
RPA 工具	固定流程、企业级	大规模重复任务

UI-TARS Desktop 的优势在于：开源免费 + 本地运行 + 纯视觉理解。

适合谁用？

适合这些人：想自动化重复性电脑操作的个人用户、需要 GUI 自动化测试的开发者、对 AI Agent 感兴趣的技术爱好者、想构建自动化工作流的产品团队。

不适合这些人：对 AI 控制电脑有安全顾虑的用户、只需要简单脚本就能搞定的问题（杀鸡用牛刀）、没有一定技术基础不想折腾的用户。

安全与隐私提醒

让 AI 控制电脑是一把双刃剑。

风险包括 AI 可能会误操作删除重要文件、如果模型被攻击可能导致安全问题、截图上传可能泄露敏感信息。

建议是在虚拟机或沙箱环境中运行、不要给 AI 管理员权限、敏感操作前人工确认、使用本地模型避免数据上传云端。

Github

github.com/bytedance/U…

总结：AI 从"聊天"到"动手"

UI-TARS Desktop 代表了一个重要趋势：AI 正在从"能说"进化到"能做"。

以前的 AI 只能给你建议、帮你写代码，现在它可以直接操作软件、完成任务。这就像是 AI 从"顾问"变成了"员工"。

当然，这技术还在早期。操作成功率、安全性、复杂任务规划，都还有提升空间。但方向是明确的——未来的 AI 不仅能理解世界，还能改变世界。

关注

如果这篇文章对你有帮助，欢迎点赞、在看、转发三连。我们会持续分享更多 AI 工具和实战经验的解读。