质谱开源Phone Agent,每个人都能做自己的AI手机了

8 阅读2分钟

项目介绍

Open-AutoGLM 的核心是一个 Phone Agent(手机端智能助理框架) :你用自然语言下指令(如“打开小红书搜索美食”),它会

  1. 看屏幕(多模态视觉语言模型理解当前界面)
  2. 做规划(决定下一步该点哪里、输入什么、滑动/返回等)
  3. 真操作手机(用 ADB 控制 Android 设备执行动作)
    并且提供两类安全机制:
  • 敏感操作确认(关键动作前弹确认)
  • 登录/验证码等场景人工接管(让人完成后继续)
    同时支持 USB 或 WiFi/网络的远程 ADB 调试,更方便在远端设备/服务器上跑。

你能用它做什么

  • 命令行:直接 python main.py ... "打开美团搜索附近的火锅店" 这种一条命令跑任务
  • Python API:用 PhoneAgent 写成代码调用,适合集成到你自己的系统里
  • 可见的推理与动作日志:verbose 模式会打印每一步“思考过程 + 执行动作(JSON)”便于调试和复现问题
  • 覆盖 50+ 主流中文 App(社交、电商、外卖、出行、视频、内容社区等),并列出了可执行的动作集合(Launch/Tap/Type/Swipe/Back/Home/Wait/Take_over 等)

支持的应用列表如下

分类应用
社交通讯微信、QQ、微博
电商购物淘宝、京东、拼多多
美食外卖美团、饿了么、肯德基
出行旅游携程、12306、滴滴出行
视频娱乐bilibili、抖音、爱奇艺
音乐音频网易云音乐、QQ音乐、喜马拉雅
生活服务大众点评、高德地图、百度地图
内容社区小红书、知乎、豆瓣

我的想法

它标志着: “通用大模型”正在从聊天/写作,走向真实世界里的“可执行软件代理(agent)” ——而且不再局限在网页或API,而是直接把手机当操作系统入口来完成任务。 更具体点说,它代表了几件事:

  • 交互范式变了:从“你点按钮”变成“你说目标,系统自己点按钮”。手机 UI 成为 agent 的通用工作台。
  • 自动化门槛大幅降低:过去要靠写脚本(Appium/UIAutomator/RPA)才能做的事,现在用自然语言就能跑起来,脚本从“人工写”变成“模型生成+执行”。
  • “模型+工具”成为新软件形态:大模型负责理解与规划,ADB/系统能力负责执行,这种组合会变成很多应用的底层架构。

有兴趣的可以去直接看看怎么玩,

GitHub项目地址:github.com/zai-org/Ope…