还在手搓麻将?不妨试试用GUI Agent当牌搭子
GUI Agent 的应用场景,大多集中在办公自动化领域——操作浏览器、填写表单、处理 SaaS 应用。但如果把 GUI Agent 放到一个完全不同的场景中,比如打麻将,它还能正常工作吗?
我们用明略科技开源的 Mano-P 做了这个实验,结果颇有意思。
效果展示
Mano-P 在麻将场景中完成了三个核心动作:
- 识牌——通过纯视觉理解当前手牌和桌面牌况
- 分析——判断牌面局势,评估出牌策略
- 决策+操作——点击对应的牌完成出牌动作
整个过程没有调用游戏 API,没有读取内存数据,也没有使用 OCR 预处理。模型直接通过屏幕截图理解界面状态,并输出操作指令。
为什么选择麻将场景
在 AI 游戏领域,AlphaGo、OpenAI Five 等经典工作已经证明了 AI 在博弈类游戏中的能力。这些方案通常通过接入游戏内部接口获取结构化状态数据来进行决策。
Mano-P 采用了一种不同的技术路线。作为 GUI-VLA(Vision-Language-Action)Agent,它的核心设计理念是通过纯视觉来理解和操作图形界面——模型接收的输入是屏幕截图,输出的是操作坐标和动作类型。
麻将场景对这种纯视觉方案构成了较高的技术挑战:
- 视觉元素密集:13 张手牌、桌面明牌、操作按钮等同时呈现在界面上
- 界面非标准化:游戏引擎渲染的图形元素,没有 DOM 或 accessibility tree 可用
- 决策需要推理:出牌涉及牌面分析、听牌判断、攻防策略等复合推理
- 异步交互流程:需要等待其他玩家操作,识别"轮到自己"的界面变化
这些特点使得麻将成为验证 GUI Agent 通用视觉理解能力的一个有代表性的测试场景。
Mano-P 技术简介
Mano-P 是明略科技开源的 GUI-VLA Agent,面向端侧设备设计。名字中的 "Mano" 来自西班牙语"手",P 代表 Person(个人)和 Party(组织),寓意让每个人和组织都能创造属于自己的个性化 AI。
纯视觉驱动架构
Mano-P 直接处理屏幕截图像素,输出操作坐标和动作类型。这种纯视觉方案的特点在于不依赖 DOM、accessibility tree 或 OCR 等结构化输入,因此在理论上可以操作任意有图形界面的应用——无论是 Web 页面、桌面软件还是游戏界面。
think-act-verify 循环推理
Mano-P 的推理过程采用三步循环机制:
- Think:分析当前屏幕状态,理解界面上下文
- Act:生成并执行操作指令
- Verify:截图验证操作结果是否符合预期
如果验证发现操作未生效或结果异常,模型会重新进入 Think 阶段进行调整。这种闭环推理在麻将场景中尤为重要——等待对手出牌、处理界面动画过渡等情况都需要 Agent 具备自我纠错能力。
三阶段训练
模型训练分为三个阶段:
| 阶段 | 方法 | 目标 |
|---|---|---|
| Stage 1 | SFT(监督微调) | 建立基础 GUI 识别和操作能力 |
| Stage 2 | Offline RL(离线强化学习) | 优化操作策略 |
| Stage 3 | Online RL(在线强化学习) | 在真实环境中提升鲁棒性 |
端侧本地运行
Mano-P 支持在 Apple M4 芯片 + 32GB RAM 的 Mac 设备上本地推理。4B 量化版本(w4a16)的实测数据:
| 指标 | 数值 |
|---|---|
| Prefill 速度 | 476 tok/s |
| Decode 速度 | 76 tok/s |
| 峰值内存 | 4.3 GB |
所有推理过程在本地完成,截屏数据不出设备,满足隐私保护需求。
注:端侧推理目前需要 Apple M4 芯片 + 32GB RAM 的硬件配置。
从麻将看 GUI Agent 的通用性
麻将场景的价值不在于游戏本身,而在于它验证了一个技术论点:纯视觉驱动的 GUI Agent 具备跨场景的通用性。
同一套模型和架构,既能处理企业办公中的表单填写、数据录入等结构化任务,也能应对游戏界面中的非结构化视觉交互。这种通用性为 GUI Agent 的应用打开了更大的想象空间:
- 操作没有 API 接口的遗留系统
- 处理游戏、桌面软件等非 Web 场景
- 应对 Canvas 渲染、动态界面等复杂情况
从办公自动化到生活娱乐,从结构化数据处理到非结构化的游戏交互——这正是 Mano-P "AI for Personal" 愿景的一种体现。
评测数据
Mano-P 在主流 GUI Agent 评测中取得了有竞争力的成绩:
- OSWorld 评测:72B 模型取得 58.2% 成功率,在专项模型中排名第一
- WebRetriever Protocol I:41.7 NavEval 分数
这两项评测分别覆盖了桌面应用操作和 Web 交互场景,反映了模型在不同 GUI 环境中的综合能力。
开源信息
Mano-P 采用 Apache 2.0 许可证,目前处于三阶段开源的第一阶段:
| 阶段 | 内容 | 状态 |
|---|---|---|
| Phase 1 | Skill(基础能力) | ✅ 已开源 |
| Phase 2 | 本地模型 + SDK | 即将发布 |
| Phase 3 | 训练方法 + 剪枝量化技术 | 规划中 |
GUI Agent 的发展方向,正在从"能操作特定应用"走向"能理解任意图形界面"。麻将场景虽然只是一个小切面,但它展示了纯视觉方案在通用性上的潜力。当一个 Agent 能够仅凭"看屏幕"就完成识牌、分析和出牌的全流程,那么在办公、生产等更广泛的场景中,它的应用价值值得期待。