「豆包手机」为何能靠超级Agent火遍全网,我们听听AI学者们怎么说

262 阅读18分钟

手机上的 AI,从来没有这么像真人。

最近一个星期,席卷科技圈的一款手机不来自任何一家硬件大厂,而是与字节的豆包联系在了一起。

这款搭载豆包手机助手的工程机引爆了全网,让很多人第一次真切地感受到 Agent 已经触手可及。在某宝平台上,这款手机的价格被炒到了近五千元。

图片

本月初发布的豆包手机助手,目前还是技术预览版。与大多数作为独立 App 存在的 AI 助手都不一样的是,它通过把 AI Agent 嵌入系统底层的方式,让手机实现了端侧 AI 能力的全面突破,带来了全新的交互方式和多模态体验。在不少科技从业者看来,豆包手机助手已经把 AI 工具的认知推向了新的高度,它不再只是一个辅助工具或外置 App,而是与手机操作系统深度绑定的「超级管家」。

毕竟,只需要一句话,豆包手机助手可以真正地实现跨 App 的复杂指令执行。除了其他手机上 Agent 常见的订餐、记账、修改设置等能力之外,豆包手机助手能够攻克相对模糊且复杂的长链条需求。

图片

豆包手机助手全程无中断地完成「地图上标记餐厅、查找博物馆以及旅行平台订票」的多需求、长链路任务。

这样的表现让人直呼:「是不是有点过于智能化了」。

与此同时,围绕豆包手机助手持续升温的讨论也引出了一些不同观点与追问:「AI 操作手机」真的是未来人们用手机的常态吗?要打造这样一台 AI 手机,豆包手机助手做对了什么?

在深入了解豆包手机助手背后的技术底座,并与四位学界专家进行一番交流之后,我们对它如何重构交互范式、推动系统级 GUI Agent 实现有了更加立体、清晰的认知。

给手机装系统级 Agent,为什么这么难?

这两年,无论是一些新兴的 AI 硬件初创公司,还是国内外主流手机厂商呈现出一个明显的趋势:探索将原生 AI 能力更深度地融合进设备系统中,最重要的形态之一便是引入 AI Agent。

其中,作为一种由多模态视觉模型驱动的 AI 系统,GUI Agent 在遵循以自然语言提出的指令下,能够理解屏幕内容、进行自主推理,并在 UI 上执行与人类操作类似的交互,如读取信息、点击按钮、输入内容等,从而完成特定任务。

随着 GUI Agent 能力在端侧持续增强,以更高集成度、更深层系统权限为特征的系统级 GUI Agent 逐渐成为下一阶段的核心目标,这要求不仅高效执行任务,还要理解上下文、协调多 App 流转等。

但这样的系统级实现并不容易。从学术与工程落地视角来看,大致需要克服以下四个层面的障碍:

一是感知层:Agent 需要在毫秒级内识别出屏幕上所有的交互元素,比如图标、按钮和文本框。此外还需要具备抗动态干扰能力,这是因为 App 界面复杂,弹窗广告、浮层、动态加载内容会产生视觉噪声。GUI Agent 要具备「像素级」的精准定位能力,同时理解图标背后的「功能语义」。

二是规划层:主要涉及跨 App 的信息流转,包括 App 切换、上下文记忆提取、剪贴板操作等多个步骤;执行过程中也可能会遇到网络卡顿、登录失效、意外弹窗等突发情况,传统的脚本(workflow)一旦断裂可能无法继续。GUI Agent 要维持跨多 App 的逻辑连贯性,并具备自我反思能力,比如发现路径不通而换一种方式。

三是决策层:GUI Agent 必须具备强泛化能力,不能只在见过的界面上工作,还要能够在未见过的同类 App 中执行相似操作。同时,手机操作除了点击之外,还包括长按、滑动和缩放等其他细粒度操作,对 Agent 的反馈回路提出了更高要求,也意味着决策过程必须更加及时与精准。

四是系统层:首先是响应速度,用户无法忍受长时间的思考;其次是权限壁垒,在 Android 等严格的沙盒机制下,无法轻易获取其他 App 的屏幕信息或进行操作。GUI Agent 要在保证数据隐私安全和低延迟的前提下,打破操作系统内部的数据孤岛。

四个层面的障碍共同构成系统级 GUI Agent 落地过程中最核心的挑战。其中在谈到系统级跨 App 操作面临的难题时,蒙特利尔大学与 MILA 实验室副教授刘邦提到了感知层的界面理解与元素定位问题,以及规划层的长链路任务规划与状态管理。真实用户任务往往需几十步、跨多个 App,还可能出现弹窗、网络延迟、权限请求、验证码、异步加载等状况。Agent 必须记住之前做了什么、当前状态如何、接下来可能发生什么,还要能应对失败或异常。

西湖大学通用人工智能(AGI)实验室负责人、助理教授张驰点出了上下文记忆和推理速度这两项对 GUI Agent 产品化至关重要的能力。上海交通大学计算机学院教授、博士生导师张伟楠博士认为当前的 AI 大厂往往通过一个或几个 App 发力,无法获得最大的数据访问与操控权限,因此无法对齐用户上下文,也无法做到用户可以完成的操作。

浙江大学百人计划研究员、博士生导师沈永亮总结了几个难点,包括长链路规划、推理速度以及轻量级模型如何管理短期与长期记忆,这些也是当前学术界普遍关注的核心瓶颈。

对于这样一项贯穿 AI 技术、终端硬件、操作系统和生态协同的全链路重构工程,任何一个环节的不成熟,都可能影响 Agent 走向真正的产品化。近两年学界和业界开始发力 Agent 载体的能力释放,包括通用 GUI Agent 研究工作 AppAgent、Mobile-Agent、UI-TARS 等,以及依赖视觉识别与无障碍控制的 Rabbit 式通用 Agent 和手机厂商在 OS 层构建的系统级 Agent。

通过这些尝试,AI 开始能够像人类一样操控手机屏幕并完成一些特定的任务,但依然存在着不少问题,比如不同 App 的权限开放、长链路复杂任务成功率低、等待时间长、缺乏处理 UI 突发情况的能力,这些都限制了系统级 GUI Agent 的稳定性和实用性。

豆包手机助手取长补短,采取了「GUI Agent + 系统级权限」的路径。一方面,在手机上通过深度系统集成获得了 Android 系统级权限,同时有更严格的使用限制,只有在用户主动授权之后才会调用该权限。这允许豆包手机助手模拟用户点击、滑动、键入、跨 App 操作。另一方面,借助视觉多模态能力,即识别屏幕 UI、理解界面内容、解析用户意图和执行规划,豆包手机助手自主决定「下一步该点哪儿、输入什么、跳到哪个 App」。用刘邦的说法,这相当于一个「幽灵手指 + 大脑 + 决策系统」。

张驰强调了豆包手机助手的系统级整合能力,通过基础能力的持续增强和多种技术方案的整合(如系统功能接口调用),做到更好的 GUI Agent 体验。张伟楠表示,豆包手机助手通过 GUI Agent 打通 App 之间的壁垒,在对齐用户上下文和操作空间上有了显著进步。「作为第一个手机厂商和大模型公司主导设计的 AI 手机,设计逻辑上比传统手机厂商做 AI 转型设计的手机更具有颠覆性。」

沈永亮同样突出了豆包手机助手主打的原生 GUI 视觉操作,与手机厂商深度合作达成系统级操作权限,直接向系统内核发送指令来模拟人手指的点击和滑动。这种基于系统底层的视觉操作与以往依赖无障碍服务的第三方 App 有本质区别,具备了极强的通用性,执行过程更稳定、更像真人,在推理速度与任务完成率上表现平衡,长上下文处理能力相当可观。

整体看下来,豆包手机助手正在构建一个集「视觉理解、大模型推理与系统级原生执行」于一体的通用 Agent 层,在面对不同 App 和界面形态时实现了可泛化的 UI 操作。

从兼容性、跨 App 自动化执行、长链路任务处理、多任务调度等多个维度来看,豆包手机助手已经展现出了优于传统脚本式自动化或无障碍接口方案的能力。这些都为实现更高阶的系统级 GUI Agent 提供了更稳健的基础能力。

UI-TARS:豆包手机助手背后的自研系统级 GUI Agent 引擎

相信大家已经被豆包手机助手的各种演示刷屏了,无论是跨 App 订机票、自动比价、修改图片,还是在手机上丝滑完成一整套复杂流程,这些能力表明:手机不再只是等你点的工具,而是开始具备了主动完成任务的能力。

这些能力的背后,正是字节在 2025 年陆续推出的自研开源模型 UI-TARS。据悉,豆包手机助手使用的是 UI-TARS 闭源版本,不仅性能优于其开源版本,还针对 Mobile Use 进行了大量优化。

UI-TARS 最早可追溯到今年一月,其奠定了字节在 GUI Agent 方向的基础框架;四月,团队进一步发布进阶版 UI-TARS-1.5,该版本融合了由强化学习带来的高级推理能力,使模型能够在执行动作之前先进行思考推演。九月推出的 UI-TARS-2 则将这一体系推进到新的阶段。

UI-TARS 包括用于可扩展数据生成的数据飞轮机制、稳定的多轮强化学习框架、融合文件系统与终端的混合式 GUI 环境,以及支持大规模 rollouts 的统一沙箱平台。

图片

首先,缓解数据稀缺问题。现阶段大规模预训练和强化学习在对话、推理等领域已经非常成熟,但一旦换到需要长链操作的 GUI 任务上,就难以直接扩展。因为 GUI 场景不像文本和代码那样可以轻松收集海量数据,而是必须记录完整的操作轨迹,包括每一步的推理、点击、界面变化和反馈。这类数据不仅难获取、成本高,而且规模化收集尤其困难。

UI-TARS 设计了可扩展的数据飞轮(Data Flywheel)机制,通过反复的训练持续提升模型能力和数据质量。在每一轮循环中,最新的模型会生成新的智能体轨迹,这些轨迹随后会被过滤并分配到最适合的训练阶段。高质量的输出会被提升到更靠后的阶段(如 SFT),而质量较低的输出则会回收至更早的阶段(如 CT)。随着多次迭代进行,这种动态再分配方式能够确保每个训练阶段都使用与其最匹配的数据,从而形成一个自我强化的闭环:更好的模型产生更好的数据,而更好的数据又反过来训练出更强的模型。

图片

其次,需要解决可扩展的多轮强化学习问题。在交互环境里做强化学习很难,因为智能体很难及时知道自己做得对不对:奖励大多来得很慢、有时甚至没有;训练过程也容易不稳定。

为突破这一瓶颈,UI-TARS 构建了一个专门面向长链场景的训练框架,其中包括使用带有状态保持能力的异步 rollout 来维持上下文一致性;通过流式更新来避免长尾轨迹导致的训练瓶颈;以及结合奖励塑形( Reward Shaping)、自适应优势估计和值预训练的增强版近端策略优化(PPO)算法,以进一步提升训练效果。

图片

第三,突破纯 GUI 操作限制。现实中的许多任务并不能单靠界面点击完成,例如数据处理、软件开发、系统管理等,更高效的方式往往是直接操作文件系统、使用终端或调用外部工具。如果智能体只能依赖 GUI 交互,其能力边界就会非常有限。因此,一个真正高级的 GUI Agent 必须能够将图形化操作与这些系统资源无缝结合,使其不仅能点界面,还能执行更真实、更复杂的工作流。

为此,UI-TARS 搭建了一个混合式 GUI 中心环境,使智能体不仅可执行屏幕上的操作,还能调用文件系统、终端及其他外部工具,从而解决更广泛的真实任务。这意味着,在 UI-TARS 的训练体系中,智能体的操作空间已经从单纯的点击、输入、滚动,拓展为能够自由组合 GUI 操作与系统指令的更高维动作集合。例如,它既可以在文件管理器中拖拽文件,也可以直接通过 Shell 命令处理文本、解压压缩包、运行脚本。可以说这是系统级 GUI Agent 能够走向真实应用的关键一步。

最后,即便具备丰富的交互能力,要部署大规模 RL 环境依然是工程瓶颈。因为系统需要在浏览器、虚拟机、模拟器里反复跑上百万次交互,还要保证结果可重复、出错能恢复、不影响训练流程。但现实情况是,这类环境往往又慢又贵,还容易崩溃,想长期、稳定地跑大规模 RL 几乎是件非常困难的工程任务。

为支持大规模训练与评估,UI-TARS 构建了一个统一沙箱平台,其核心创新之一是共享文件系统:这使得 GUI Agent 可以在同一个容器实例中实现诸如通过浏览器下载文件并立即用 Shell 命令处理连续跨工具操作。该沙箱不仅保持了复杂任务所需的稳定性与可复现性,还在分布式计算资源上支持高吞吐训练,同时为数据标注、评估和推理提供一致的环境。

依托这四项技术,UI-TARS 为系统级 GUI Agent 提供了真正可落地的基础能力,使豆包手机助手能够在真实手机操作系统中稳定执行跨 App、长链路的复杂任务,实现从对话智能向行动智能的跃迁。

UI-TARS 的突出表现,也得到了四位学界专家的认可。在刘邦看来:「UI-TARS-2 在学术层面为通用 GUI Agent 路线提供了一套经过验证、可扩展的基础框架。」

他特别指出 UI-TARS-2 的研究价值在于它让 AI 自动操作图形界面(GUI)具备了通用性与端到端特性:模型只需观察屏幕截图,就能通过视觉理解、多模态推理、模型推理、自动点击、输入、滚动等操作,模拟人类操作界面。在这一基础上,UI-TARS-2 通过大规模强化学习、自我生成与迭代的数据飞轮、统一的动作空间设计以及混合式(Hybrid)环境,让 Agent 在各种不同环境中都有较好表现。

张驰也对这项研究给予了客观评价。他指出,「UI-TARS-2 做出了许多兼具工业价值与学术价值的规模化探索,从模型底层能力入手,对 GUI Agent 进行了系统性的强化。」

他进一步强调,与学术界普遍聚焦于 Agent 架构或策略改进不同,字节跳动选择直接面向模型能力本身发力,用大规模数据、算力与强化学习训练体系去提升智能体在真实 GUI 环境中的最终效果,补上了学术界在资源与工程实践方面的短板。

张伟楠表示,UI-TARS 是字节今年推出的杰出科研成果,自己带领的团队在推进 GUI Agent 研究时也多次参考并引用了 UI-TARS。在他看来,这套体系不仅为系统级 GUI Agent 提供了清晰的技术路径,也让外界看到了字节在智能体方向持续输出更强研究成果的能力。

沈永亮则从初代 UI-TARS 到 UI-TARS 2.0 做了很好的点评:「UI-TARS 1.0 走了一条视觉原生的端到端路线,通过构建人工标注数据和进行大规模的 SFT、DPO 训练,向行业证明了只要数据飞轮转起来,不依赖各种花式 workflow 的纯视觉方案也能走的通。后续版本这种领先优势进一步从感知延伸到了推理和环境交互。UI-TARS 1.5 让我们看到了强化学习在处理复杂任务时的关键作用,紧接着 UI-TARS 2.0 推出沙盒环境,让模型能够进行无限的数据 Scaling,通过在虚拟环境中不断试错和生成数据,实现了左脚踩右脚式的自我迭代提升。这一整套从纯视觉感知到沙盒自我进化的研究闭环,无疑是目前行业里最前沿的探索。」

写在最后

从应用体验到背后的 AI 模型技术,豆包手机助手第一次在端侧设备上实现了变革式的 AI 交互体验升级,或许未来 AI 手机的终极形态,就会从这里开始。

以它为起点继续推演,在未来的手机上,我们可能面对的将不再是一个个独立的 App,而是有一个「无所不能」的系统级 GUI Agent 来自动帮我们解决问题。

随着 AI 能力被内化为核心,手机 OS 系统不再只是资源管理器,而会进化成为你的意图调度器,实现真正的 AI 原生。各种能力由 AI 调用,交互的范式将会由「人找服务」转变到「服务找人」。

你的手机将会从一个「能打电话的电脑」,转变成为一个「拥有自主行动能力的个人智能体」,它会真正成为能与你自然共处、深刻理解你、并能在数字与物理世界为你有效行动的伙伴。

如果当「意图驱动 + 自动化 + Agent」演变为系统自带的功能,系统级 GUI Agent 将成为下一代手机操作系统的标配能力,刘邦和张驰都表达出了类似的观点。张伟楠也认同 GUI Agent 是当前 AI 手机的实现路径之一,并且相信很快可以达到媲美人类的操作智能水平。沈永亮虽然没有给出明确的答案,但他举了触屏手机取代实体键盘的例子来说明,当人们习惯了一句话就能让手机自动帮你完成任务(比如订票、订酒店),这种「用了就回不去」的便利性其实已经告诉我们未来会走向哪里。

不过仍有一些关键挑战需要解决,包括设备端算力、系统级 Agent 的协调管理权限、兼容与安全机制等。对于 AI 技术本身来说,模型感知的准确度,在复杂任务上的规划推理能力也是决定智能化程度的关键。

未来究竟会发展成什么样?我们尚不能给出准确的答案,不过可以肯定的是,系统级 GUI Agent 探索所带来的变革才刚刚开始,想象空间远比我们当下所能看到的更为广阔。