调研数据大曝光：GUI Agent 关键痛点竟然是它？在这次调研活动里，我们收到了百余份反馈。样本不大，却像一束手电筒光

过去一年，GUI Agent 从“能看懂屏幕”走到了“能点、能填、能跑流程”。我们在春节前做的这次调研，本质上想回答一个更现实的问题：大家到底有没有把 GUI Agent 用起来？如果没用起来，卡在什么地方？

很多人对 GUI Agent 的第一印象都很好。点点点就能把活干了，看上去像给电脑装了个“会动的手”。可一旦进入真实场景，大家立刻变得务实起来，提问的口径也统一了：成功率靠不靠谱，卡在验证码怎么办，跑一次要等多久，出了问题能不能复盘定位。

这次调研像一次小型体检，测出来的指标很一致：期待值很高，耐心很短。谁能把稳定性、可控性、可复现、可治理这几件事做扎实，谁就更容易拿到生产环境的入场券。

受访者画像：技术人群为主，行业集中在 AI 与硬件/制造

从行业看，本次样本更偏向技术驱动型行业，其中 AI 人工智能占 27.2%，物联网/智能硬件/智能生活占 9.8%，制造/贸易/零售占 9.8%。互联网医疗/健康、通信/电子、云计算/大数据等紧随其后。

行业分布说明本次调研对 “具备工程化落地意愿/能力” 的人群覆盖更充分，因此对于 Lybic 这类基础设施产品来说，结论更接近真实使用场景，而非概念性偏好。

从职位看，研发与技术管理岗位占多数：前端工程师 8.7%，后端工程师 7.6%，测试工程师 6.5%，技术管理（总监/经理/主管）8.7%。

这与Lybic在内容与产品交付上的关注点也不谋而合，需要同时覆盖两类人：一类追求 “能快速跑起来” 的工程实践者；另一类更关注 “可控、安全、可审计” 的管理与业务协同人群。

GUI Agent 落地阶段：从“尝鲜”到“持续使用”，卡在稳定性与可控性

受访者对 GUI Agent 的整体体验阶段呈现“中间厚、两头薄”的典型早期市场特征：已经在用（27.2%）+ 用过但没继续（30.4%）合计 57.6%，说明用户不是不认可方向，而是“跑不稳/跑不起/跑不久”。

云沙箱逐渐成为主流承载方式，但用户对“效率与成本”的权衡很现实

云沙箱并非小众：当前已经把云沙箱作为“主要执行环境”的占 25.0%，在特定任务/阶段使用的占 44.6%，两者合计 69.6%。同时，仍有 23.9%处于“没用过但愿意尝试”的观望阶段。

这组数据说明：“愿意上云”的心智已经建立，但是否愿意长期付费/规模化跑，可能取决于排队启动、稳定性与可观测能力是否能抵消算力成本与工程沟通成本。

而在 GUI Agent 部署/运行位置这一多选题中，单一选择占比最高的选择是“服务器或云主机”（27.2%），但多位置混合部署的多选情况也很常见（31.5%）。在最终的综合结果中，服务器或云主机选项一骑绝尘领先（50.0%），本地电脑直接跑的用户也不在少数(37.0%)。反而使用闲置主机或沙盒环境的用户低于我们的预期，分别占比19.6%和15.2%。

这意味着对于GUI Agent来说，也许不能只做“云端跑得快”，还需要在产品叙事与能力上强调：同一套 Agent，能够在云/本地/混合环境中保持一致的可复现性与可观测性，否则用户会在环境差异中不断“复现失败”。

关键痛点：成功率、稳定性与登录障碍，决定了“能不能把任务跑完”

在“GUI Agent 遇到的最大痛点”中，提及率最高的几类问题都指向任务要么跑不完，要么跑不稳，真正“可交付”的闭环还差一口气。

最典型的四类高频痛点是：

成功率低，重复跑不稳定
容易卡在登录/验证码/弹窗
成本高，Token或算力消耗大
速度慢，等待时间长

不过很有趣的是，对于最近爆火的 OpenClaw 来说，所谓的 GUI Agent 的 Token 消耗，可以说是小巫见大巫了。这里其实更重要的是性价比问题，对于目标是真正能够落地解决问题的 AI 工具来说，如何高成功率、高性价比、高效的完成目标，才是重中之重。

当然关于“希望 Lybic 接下来优先支持什么能力”、“除 Lybic 外还用过哪些相关产品”、自由交流等等反馈，我们也都悉数接收到了，并且会吸收融合进我们后续的产品规划与思考当中。其实归根结底，相应的结论与“痛点/待优化点”等结果高度一致：用户要的是一条可复用的工程路径，启动快、跑得稳、出问题能复盘、数据与权限可控、规格可扩展。这恰好也是基础设施产品的核心竞争轴。

这同样也是 Lybic 想做的事情。我们提供了云端沙盒环境和纯视觉操作引擎，无需API或系统改造，即开即用。

云端沙盒环境（电脑/手机/浏览器等）：秒级创建虚拟电脑/手机沙盒（Windows/Linux/Android）/浏览器等，并将其封装为标准MCP或SDK，一站式解决智能体GUI/图形界面交互、资源托管及高并发执行等基础设施供应问题。
深度集成Grounding推理框架：为开发者提供高精度的GUI视觉理解能力，使智能体不仅能“操作”界面元素，更能真正“看懂”屏幕内容及其动态变化（如识别特定图标、读取弹窗信息），从而实现对复杂GUI环境的智能感知与自主决策。

最后附上参与调研的朋友们对于 GUI Agent 能力的一些美好愿景，在此与道路上共同探索并前行的公司/团队/极客们共勉。