还在手搓麻将？不妨试试用GUI Agent当牌搭子GUI Agent 的应用场景，大多集中在办公自动化领域——操作浏览器

还在手搓麻将？不妨试试用GUI Agent当牌搭子

GUI Agent 的应用场景，大多集中在办公自动化领域——操作浏览器、填写表单、处理 SaaS 应用。但如果把 GUI Agent 放到一个完全不同的场景中，比如打麻将，它还能正常工作吗？

我们用明略科技开源的 Mano-P 做了这个实验，结果颇有意思。

麻将-中文.png

Mano-P 在麻将场景中完成了三个核心动作：

整个过程没有调用游戏 API，没有读取内存数据，也没有使用 OCR 预处理。模型直接通过屏幕截图理解界面状态，并输出操作指令。

在 AI 游戏领域，AlphaGo、OpenAI Five 等经典工作已经证明了 AI 在博弈类游戏中的能力。这些方案通常通过接入游戏内部接口获取结构化状态数据来进行决策。

Mano-P 采用了一种不同的技术路线。作为 GUI-VLA（Vision-Language-Action）Agent，它的核心设计理念是通过纯视觉来理解和操作图形界面——模型接收的输入是屏幕截图，输出的是操作坐标和动作类型。

麻将场景对这种纯视觉方案构成了较高的技术挑战：

这些特点使得麻将成为验证 GUI Agent 通用视觉理解能力的一个有代表性的测试场景。

Mano-P 是明略科技开源的 GUI-VLA Agent，面向端侧设备设计。名字中的 "Mano" 来自西班牙语"手"，P 代表 Person（个人）和 Party（组织），寓意让每个人和组织都能创造属于自己的个性化 AI。

Mano-P 直接处理屏幕截图像素，输出操作坐标和动作类型。这种纯视觉方案的特点在于不依赖 DOM、accessibility tree 或 OCR 等结构化输入，因此在理论上可以操作任意有图形界面的应用——无论是 Web 页面、桌面软件还是游戏界面。

Mano-P 的推理过程采用三步循环机制：

如果验证发现操作未生效或结果异常，模型会重新进入 Think 阶段进行调整。这种闭环推理在麻将场景中尤为重要——等待对手出牌、处理界面动画过渡等情况都需要 Agent 具备自我纠错能力。

模型训练分为三个阶段：

Mano-P 支持在 Apple M4 芯片 + 32GB RAM 的 Mac 设备上本地推理。4B 量化版本（w4a16）的实测数据：

所有推理过程在本地完成，截屏数据不出设备，满足隐私保护需求。

注：端侧推理目前需要 Apple M4 芯片 + 32GB RAM 的硬件配置。

麻将场景的价值不在于游戏本身，而在于它验证了一个技术论点：纯视觉驱动的 GUI Agent 具备跨场景的通用性。

同一套模型和架构，既能处理企业办公中的表单填写、数据录入等结构化任务，也能应对游戏界面中的非结构化视觉交互。这种通用性为 GUI Agent 的应用打开了更大的想象空间：

从办公自动化到生活娱乐，从结构化数据处理到非结构化的游戏交互——这正是 Mano-P "AI for Personal" 愿景的一种体现。

Mano-P 在主流 GUI Agent 评测中取得了有竞争力的成绩：

这两项评测分别覆盖了桌面应用操作和 Web 交互场景，反映了模型在不同 GUI 环境中的综合能力。

Mano-P 采用 Apache 2.0 许可证，目前处于三阶段开源的第一阶段：

GUI Agent 的发展方向，正在从"能操作特定应用"走向"能理解任意图形界面"。麻将场景虽然只是一个小切面，但它展示了纯视觉方案在通用性上的潜力。当一个 Agent 能够仅凭"看屏幕"就完成识牌、分析和出牌的全流程，那么在办公、生产等更广泛的场景中，它的应用价值值得期待。