项目介绍
Open-AutoGLM 的核心是一个 Phone Agent(手机端智能助理框架) :你用自然语言下指令(如“打开小红书搜索美食”),它会
- 看屏幕(多模态视觉语言模型理解当前界面)
- 做规划(决定下一步该点哪里、输入什么、滑动/返回等)
- 真操作手机(用 ADB 控制 Android 设备执行动作)
并且提供两类安全机制:
- 敏感操作确认(关键动作前弹确认)
- 登录/验证码等场景人工接管(让人完成后继续)
同时支持 USB 或 WiFi/网络的远程 ADB 调试,更方便在远端设备/服务器上跑。
你能用它做什么
- 命令行:直接
python main.py ... "打开美团搜索附近的火锅店"这种一条命令跑任务 - Python API:用
PhoneAgent写成代码调用,适合集成到你自己的系统里 - 可见的推理与动作日志:verbose 模式会打印每一步“思考过程 + 执行动作(JSON)”便于调试和复现问题
- 覆盖 50+ 主流中文 App(社交、电商、外卖、出行、视频、内容社区等),并列出了可执行的动作集合(Launch/Tap/Type/Swipe/Back/Home/Wait/Take_over 等)
支持的应用列表如下
| 分类 | 应用 |
|---|---|
| 社交通讯 | 微信、QQ、微博 |
| 电商购物 | 淘宝、京东、拼多多 |
| 美食外卖 | 美团、饿了么、肯德基 |
| 出行旅游 | 携程、12306、滴滴出行 |
| 视频娱乐 | bilibili、抖音、爱奇艺 |
| 音乐音频 | 网易云音乐、QQ音乐、喜马拉雅 |
| 生活服务 | 大众点评、高德地图、百度地图 |
| 内容社区 | 小红书、知乎、豆瓣 |
我的想法
它标志着: “通用大模型”正在从聊天/写作,走向真实世界里的“可执行软件代理(agent)” ——而且不再局限在网页或API,而是直接把手机当操作系统入口来完成任务。 更具体点说,它代表了几件事:
- 交互范式变了:从“你点按钮”变成“你说目标,系统自己点按钮”。手机 UI 成为 agent 的通用工作台。
- 自动化门槛大幅降低:过去要靠写脚本(Appium/UIAutomator/RPA)才能做的事,现在用自然语言就能跑起来,脚本从“人工写”变成“模型生成+执行”。
- “模型+工具”成为新软件形态:大模型负责理解与规划,ADB/系统能力负责执行,这种组合会变成很多应用的底层架构。
有兴趣的可以去直接看看怎么玩,
GitHub项目地址:github.com/zai-org/Ope…