过去一年,GUI Agent 从“能看懂屏幕”走到了“能点、能填、能跑流程”。我们在春节前做的这次调研,本质上想回答一个更现实的问题:大家到底有没有把 GUI Agent 用起来?如果没用起来,卡在什么地方?
很多人对 GUI Agent 的第一印象都很好。点点点就能把活干了,看上去像给电脑装了个“会动的手”。可一旦进入真实场景,大家立刻变得务实起来,提问的口径也统一了:成功率靠不靠谱,卡在验证码怎么办,跑一次要等多久,出了问题能不能复盘定位。
这次调研像一次小型体检,测出来的指标很一致:期待值很高,耐心很短。谁能把稳定性、可控性、可复现、可治理这几件事做扎实,谁就更容易拿到生产环境的入场券。
受访者画像:技术人群为主,行业集中在 AI 与硬件/制造
从行业看,本次样本更偏向技术驱动型行业,其中 AI 人工智能占 27.2%,物联网/智能硬件/智能生活占 9.8%,制造/贸易/零售占 9.8%。互联网医疗/健康、通信/电子、云计算/大数据等紧随其后。
行业分布说明本次调研对 “具备工程化落地意愿/能力” 的人群覆盖更充分,因此对于 Lybic 这类基础设施产品来说,结论更接近真实使用场景,而非概念性偏好。
从职位看,研发与技术管理岗位占多数:前端工程师 8.7%,后端工程师 7.6%,测试工程师 6.5%,技术管理(总监/经理/主管)8.7%。
这与Lybic在内容与产品交付上的关注点也不谋而合,需要同时覆盖两类人:一类追求 “能快速跑起来” 的工程实践者;另一类更关注 “可控、安全、可审计” 的管理与业务协同人群。
GUI Agent 落地阶段:从“尝鲜”到“持续使用”,卡在稳定性与可控性
受访者对 GUI Agent 的整体体验阶段呈现“中间厚、两头薄”的典型早期市场特征:已经在用(27.2%)+ 用过但没继续(30.4%)合计 57.6%,说明用户不是不认可方向,而是“跑不稳/跑不起/跑不久”。
云沙箱逐渐成为主流承载方式,但用户对“效率与成本”的权衡很现实
云沙箱并非小众:当前已经把云沙箱作为“主要执行环境”的占 25.0%,在特定任务/阶段使用的占 44.6%,两者合计 69.6%。同时,仍有 23.9%处于“没用过但愿意尝试”的观望阶段。
这组数据说明:“愿意上云”的心智已经建立,但是否愿意长期付费/规模化跑,可能取决于排队启动、稳定性与可观测能力是否能抵消算力成本与工程沟通成本。
而在 GUI Agent 部署/运行位置这一多选题中,单一选择占比最高的选择是“服务器或云主机”(27.2%),但多位置混合部署的多选情况也很常见(31.5%)。在最终的综合结果中,服务器或云主机选项一骑绝尘领先(50.0%),本地电脑直接跑的用户也不在少数(37.0%)。反而使用闲置主机或沙盒环境的用户低于我们的预期,分别占比19.6%和15.2%。
这意味着对于GUI Agent来说,也许不能只做“云端跑得快”,还需要在产品叙事与能力上强调:同一套 Agent,能够在云/本地/混合环境中保持一致的可复现性与可观测性,否则用户会在环境差异中不断“复现失败”。
关键痛点:成功率、稳定性与登录障碍,决定了“能不能把任务跑完”
在“GUI Agent 遇到的最大痛点”中,提及率最高的几类问题都指向任务要么跑不完,要么跑不稳,真正“可交付”的闭环还差一口气。
最典型的四类高频痛点是:
- 成功率低,重复跑不稳定
- 容易卡在登录/验证码/弹窗
- 成本高,Token或算力消耗大
- 速度慢,等待时间长
不过很有趣的是,对于最近爆火的 OpenClaw 来说,所谓的 GUI Agent 的 Token 消耗,可以说是小巫见大巫了。这里其实更重要的是性价比问题,对于目标是真正能够落地解决问题的 AI 工具来说,如何高成功率、高性价比、高效的完成目标,才是重中之重。
当然关于“希望 Lybic 接下来优先支持什么能力”、“除 Lybic 外还用过哪些相关产品”、自由交流等等反馈,我们也都悉数接收到了,并且会吸收融合进我们后续的产品规划与思考当中。其实归根结底,相应的结论与“痛点/待优化点”等结果高度一致:用户要的是一条可复用的工程路径,启动快、跑得稳、出问题能复盘、数据与权限可控、规格可扩展。这恰好也是基础设施产品的核心竞争轴。
这同样也是 Lybic 想做的事情。我们提供了云端沙盒环境和纯视觉操作引擎,无需API或系统改造,即开即用。
- 云端沙盒环境(电脑/手机/浏览器等):秒级创建虚拟电脑/手机沙盒(Windows/Linux/Android)/浏览器等,并将其封装为标准MCP或SDK,一站式解决智能体GUI/图形界面交互、资源托管及高并发执行等基础设施供应问题。
- 深度集成Grounding推理框架:为开发者提供高精度的GUI视觉理解能力,使智能体不仅能“操作”界面元素,更能真正“看懂”屏幕内容及其动态变化(如识别特定图标、读取弹窗信息),从而实现对复杂GUI环境的智能感知与自主决策。
最后附上参与调研的朋友们对于 GUI Agent 能力的一些美好愿景,在此与道路上共同探索并前行的公司/团队/极客们共勉。