前言
最近豆包的手机自动化功能火出圈了🔥,AI 直接操控手机,帮你完成各种任务,看着确实很酷。
但问题是:闭源、受限、只支持自家生态。
作为一个开发者,我就在想:能不能搞个开源版?
于是我开源了 Phone MCP —— 一个基于 MCP 协议的 Android 手机自动化工具,让任意 AI(Claude、GPT、豆包...)都能直接操控你的 Android 手机。
而且我已经用它自动完成了 B 站答题转正,全程零人工!
🔗 项目地址:github.com/kengerlwl/p…
一、Phone MCP 是什么?
简单说就是:
AI Agent ←→ MCP 协议 ←→ Phone MCP ←→ ADB ←→ 你的 Android 手机
- MCP(Model Context Protocol) 是 Anthropic 提出的 AI 工具协议标准
- Phone MCP 把 Android 手机的各种操作封装成了 MCP 工具
- 任何支持 MCP 的 AI 客户端都能直接调用
一句话:让 AI 像人一样操控你的手机。
二、它能干什么?(18+ 工具)
| 功能 | 工具名 | 说明 |
|---|---|---|
| 📸 截图 | get_screenshot | AI 看到你的屏幕 |
| 👆 点击 | tap / tap_element | 坐标点击或智能元素点击 |
| 📋 UI 解析 | get_ui_elements | 获取屏幕所有可交互元素 |
| ⌨️ 打字 | type_text | 支持中英文输入 |
| 📱 启动应用 | launch_app | 支持 60+ 常用 App |
| 👆 手势 | swipe / long_press | 滑动、长按、双击 |
| 🔙 系统键 | press_back / press_home | 返回、回主页 |
| 🔗 设备管理 | connect_device | USB / WiFi 连接 |
重点推荐 get_ui_elements + tap_element 组合,比坐标点击精准得多!
三、实战:B 站答题转正(全自动)
这是我实际跑通的案例,分享一下流程:
整体思路
- AI 调用
get_screenshot()获取屏幕截图 - AI 调用
get_ui_elements()解析页面元素,找到题目和选项 - AI 用自身知识推理出正确答案
- AI 调用
tap_element(text='正确答案')点击选项 - 循环重复,直到答完所有题目
效果
100 道题,全自动完成,零人工干预,成功转正! ✅
AI 不仅能读懂题目,还能根据自己的知识库选出正确答案。对于 B 站的二次元、鬼畜、番剧类题目,AI 的正确率相当高。
四、3 步快速上手
Step 1:下载可执行文件
去 GitHub Releases 页面下载对应系统的可执行文件:
phone-mcp-macos(macOS)phone-mcp-linux(Linux)phone-mcp-win.exe(Windows)
或者用 pip 安装:
pip install phone-mcp
Step 2:连接 Android 手机
USB 方式(推荐):
# 手机开启 USB 调试
# 用数据线连接电脑
adb devices # 确认设备已连接
WiFi 方式:
adb connect 192.168.x.x:5555
Step 3:配置 MCP 客户端
在你的 AI 客户端(Claude Desktop、Cursor 等)的 MCP 配置中添加:
{
"mcpServers": {
"phone": {
"command": "./phone-mcp"
}
}
}
配置好后,AI 就能直接调用手机操控工具了!
五、和豆包手机自动化有什么区别?
| 对比项 | 豆包手机自动化 | Phone MCP |
|---|---|---|
| 开源 | ❌ 闭源 | ✅ MIT 开源 |
| 接入 AI | 仅豆包 | 任意 LLM |
| 设备支持 | 受限 | 所有 Android |
| 自定义 | ❌ | ✅ 完全可控 |
| 协议标准 | 私有 | MCP 标准协议 |
| 价格 | 未知 | 免费 |
六、总结
Phone MCP 的核心优势:
- ✅ 完全开源,MIT 协议
- ✅ MCP 标准协议,接入任意 AI
- ✅ 支持所有 Android 设备
- ✅ 18+ 工具覆盖所有操作
- ✅ 已有实战案例验证
如果你也想让 AI 帮你操控手机,干一些重复性任务,欢迎试试!
⭐ GitHub:github.com/kengerlwl/p…
觉得有用的话,给个 Star 吧!