字节开源了一套 AI Agent 框架:Agent TARS 支持深度研究、电脑操作、文件编辑、MCP。
核心特点 ·
juejin.cn/aicoding AI编程板块了解更多AI编程干货
高级浏览器操作能力:通过 Agent 框架执行复杂任务,如深度研究和操作功能,可以进行全面的规划和执行 全面的工具支持:集成了搜索、文件编辑、命令行和 MCP 工具,能够处理复杂的工作流程
· 增强型桌面应用:改进的用户界面,包括浏览器显示、多模态元素、会话管理、模型配置、对话流可视化以及浏览器/搜索状态跟踪
· 工作流程编排:无缝连接 GUI Agent 工具,包括搜索、浏览、探索链接,并将信息综合为最终输出
· 开发者友好框架:简化了与 UI-TARS 的集成和为 GUI Agent 项目创建自定义工作流程 未来计划 Agent TARS 未来发展计划包括:
· 持续优化代理框架,增强 GUI Agent 与不同模型的兼容性 · 扩展到移动设备操作,实现跨平台框架 · 与游戏环境集成,实现 AI 驱动的游戏玩法
以下是基于官方介绍对 Agent TARS 的全面梳理。
一、高级浏览器操作:深度研究与智能执行
Agent TARS 的核心亮点之一是其高级浏览器操作能力。通过代理框架,它能够执行诸如**深度研究(Deep Research)和操作员功能(Operator Functions)**等复杂任务,实现从规划到执行的全面自动化。例如,Agent TARS 可以自主浏览网页、提取信息并完成指定操作,为需要大量网络交互的场景(如市场调研、数据采集)提供了强大支持。这种智能化的浏览器操作让它在信息密集型任务中游刃有余。
二、全面的工具支持:应对复杂工作流
Agent TARS 集成了多种实用工具,包括搜索、文件编辑、命令行操作和模型上下文协议(MCP),使其能够处理多样化的复杂工作流程。无论是从网络获取数据、编辑本地文件,还是通过命令行执行任务,Agent TARS 都能无缝衔接。MCP 的加入尤其值得一提,它增强了 Agent TARS 与本地工具和外部模型的协同能力,确保在多步骤任务中保持高效性和一致性。这种全面的工具支持使其成为一款真正的全能型智能体。
三、增强的桌面应用程序:用户体验再升级
Agent TARS 的桌面应用程序经过大幅改进,提供了一个焕然一新的用户界面(UI)。新 UI 集成了浏览器显示、多模式元素、会话管理、模型配置、对话流可视化以及浏览器/搜索状态跟踪等功能。这些特性让用户能够更直观地与智能体交互。例如,对话流可视化帮助用户实时跟踪任务进展,而浏览器状态跟踪则确保信息获取过程透明可控。这种设计不仅提升了使用体验,还让 Agent TARS 适用于技术开发者和普通用户。
四、工作流程编排:从输入到输出的无缝衔接
Agent TARS 在工作流程编排方面表现出色。它能够无缝连接 GUI 代理工具,将搜索、浏览、链接探索和信息合成等步骤整合为一个流畅的过程,最终生成高质量的输出。例如,用户只需输入一个研究主题,Agent TARS 就能自动完成资料搜集、内容筛选和结果整理。这种端到端的自动化能力显著减少了人工操作时间,特别适合需要多环节协作的任务场景。
五、开发人员友好框架:助力创新与定制
Agent TARS 提供了一个开发人员友好的框架,简化了与 UI-TARS 的集成以及 GUI 代理项目的自定义工作流程创建。无论是快速构建原型,还是开发高度个性化的智能体应用,开发者都能从中受益。官方还提供了安装指南:用户可通过 Homebrew 命令 brew install --cask agent-tars 轻松安装 UI-TARS Desktop,或从发布页面下载最新版本。此外,官方鼓励社区参与,开发者可参考贡献指南(Contributing Guide),共同推动 Agent TARS 的发展。
六、安装与使用
-
安装方式:
-
从官方发布页面下载最新版本的 UI-TARS Desktop。
-
若已安装 Homebrew,可运行以下命令:
bash
brew install --cask agent-tars
-
-
快速入门:参考官方文档中的 Quick Start 指南,快速上手 Agent TARS。
AICoding专区主理人目前正在招募中,有感兴趣的掘友们可以联系 Captain,也欢迎在评论区推荐或者自荐优秀的 AI Coding 方面的创作者和文章。
同时,大家也可以飞书扫码进入“AI编程掘金”社群,一起讨论交流~