手机也能自动驾驶?Open-AutoGLM开源项目炸了,解放双手神器来了!

96 阅读5分钟

手机也能“自动驾驶”?这个开源项目炸了!

兄弟们,今天给大伙安利一个硬核到爆炸的开源项目!🔥

作为一个每天要在手机上点点点几千次的“赛博打工人”,你有没有这种时刻:
想点个外卖,得在美团和饿了么之间反复横跳比价;
想给女朋友发个晚安,结果刷抖音刷到凌晨两点忘了发(危!);
双十一想买个耳机,要在淘宝、京东、拼多多之间来回切屏算满减...

如果手机能像特斯拉一样“自动驾驶”,你说顶不顶?

今天的主角 Open-AutoGLM 就是干这个的!它不是那种只会陪聊的软萌妹子,而是能直接接管你手机屏幕、帮你干活的“全能管家”。

图片来源:AI生成

🤖 这是什么黑科技?

简单说,Open-AutoGLM 是一个基于 AutoGLM 构建的手机端智能助理框架。

它的逻辑非常骨感且性感:
它不依赖应用原本的API(毕竟大厂API都要钱或者不开放),而是像人眼一样,通过视觉语言模型直接“看”你的手机屏幕,理解上面是微信还是淘宝,然后通过 ADB(Android Debug Bridge) 模拟手指点击和滑动。

这就很灵性了! 这意味着它不需要App适配,只要是人能看懂的界面,它理论上都能操作。

🛠️ 硬核亮点:不只是“听个响”

这玩意儿到底有多强?我看了一下文档,直接被圈粉:

  • 无需Root,安全下车:通过ADB控制,不用把手机刷成砖,甚至支持远程WiFi调试,手机扔客厅,你在书房电脑上就能控。
  • 中文App通吃:官方宣称支持 50+款主流中文应用!微信、淘宝、美团、抖音、小红书... 基本上你手机里装的它都认识。
  • 人机接管机制:遇到输入密码或者支付这种敏感操作,它会乖乖停下来让你接管,不会自作主张把你卡里的钱刷光。这点必须 Respect!🫡
  • 多模态理解:它不是瞎点,它是真的“看懂”了屏幕。比如你说“把这篇小红书笔记发给文件传输助手”,它能识别分享按钮、找到微信、定位好友,一气呵成。

💻 极客实操:手把手教你部署

别被“开源”两个字吓跑,这项目的部署门槛其实还行。只要你有一台 Android 7.0+ 的手机和一点点 Python 基础。

# 第一步:准备工作

你需要安装 Python 3.10+ 和 ADB 工具。
一定要记得给手机开 “开发者模式”“USB调试”
(小米用户注意:还要开启“USB调试(安全设置)”,不然只能看不能点,别问我怎么知道的😭)

# 第二步:搞定模型(最关键!)

你有两个选择:

  • 土豪/极客版:本地部署 AutoGLM-Phone-9B 模型。前提是你得有块 24G 显存以上的显卡(4090用户请起立)。
  • 白嫖/省心版:直接用第三方 API!比如魔搭社区(ModelScope)提供的服务。

这里推荐大家先用 API 尝尝鲜,不用烧显卡。

# 第三步:跑起来!

克隆代码,安装依赖:

git clone https://github.com/zai-org/Open-AutoGLM.git


cd Open-AutoGLM


pip install -r requirements.txt

然后,见证奇迹的时刻。假设你用了 ModelScope 的 API,一行命令直接起飞:

python main.py \


--base-url https://api-inference.modelscope.cn/v1 \
--model "ZhipuAI/AutoGLM-Phone-9B" \
--apikey "你的API-KEY" \


"打开美团搜索附近的火锅店"

图片来源:Turn the Terminal into a Matrix-Style Scrolling Screen of Binary ...

这时候,你会看到你的手机屏幕自动亮起,美团自动打开,搜索框自动输入...
那一刻,你会感觉自己像个黑客帝国的Neo。 😎

🧐 实际体验:它真的能用吗?

我试着让它执行了一个经典任务:“去京东和淘宝比价某款洗发水”

后台的 Log 是这样跳的:

💭 思考过程: 用户要比价 -> 先开京东 -> 搜商品 -> 记价格 -> 开淘宝 -> 搜商品 -> 对比。

🎯 执行动作: Launch App 京东 ... Tap [500, 100] ...

虽然速度上比不上你自己狂点(毕竟要截图上传分析),但那种看着AI帮你干活的爽感,是真的无可替代。它甚至能处理一些复杂的长链条任务,比如“把刚才拍的照片发朋友圈并配文”。

当然,它也不是完美的。有时候遇到弹窗广告可能会发懵,或者在某些非主流App上找不到按钮。但作为一个开源项目,这完成度已经相当 了。

图片来源:Top 26 Popular Chinese APPs | Influences on Daily Life | Updated 2023

📝 总结:AI Agent 的未来已来

Open-AutoGLM 让我们看到了 Phone Agent 的雏形。
未来的手机,可能真的不需要我们再去学习怎么用 App,而是 App 来适应我们的语言。

如果你是开发者,赶紧去 GitHub 上点个 Star,这项目绝对是潜力股;
如果你是普通用户,不妨期待一下,也许明年你的手机助手就能真的帮你“关机睡觉”了(物理意义上的)。

项目地址传送门 👉 zai-org/Open-AutoGLM
模型下载/API 👉 ModelScope 魔搭社区

技术改变生活,从解放双手开始。
Respect! 👊

本文部分图片来源于网络,版权归原作者所有,如有疑问请联系删除。