最近豆包手机的热度想必是非常高了,结果前脚微信这些巨头宣布阻止豆包手机正常访问,智谱开源了类似的项目,该项目目前已经收获了一万多star,热度非常高,该项目主要做的是自动操作手机完成一些任务,看了看想部署下试试,感受下自动化的魅力。
下面介绍一下本人的实现步骤,如果有需要可以参考下,环境是小米15+win11,不同手机在开启开发者模式部分可能略有不同,不同电脑操作系统在安装ADB方面有些许差异,需要具体问题具体分析。
项目地址: Open-AutoGLM
一、配置
配置的大部分和作者的README.md是类似的,下面详细展开步骤,主要需要配置的环境包括Python环境和ADB(Android Debug Bridge)环境。
1.ADB配置
下载官方 ADB 安装包,选择适合自己的平台的版本
解压文件夹到任意位置,配置环境变量到path中,比如我把这个解压到了我的D:\documents里面,把这个文件夹里面的platform-tools加到系统变量的path。
下面这部分可能不同机型有所差异,可以结合其他教程!
执行完后使用adb version验证安装情况。
下面配置手机,先用数据线(我是用的原装充电线去掉充电头,只要可以传输数据就可以)连接电脑和手机。
然后需要把手机开启开发者模型,小米的设置方式是进入「设置」→「我的设备」→「全部参数与信息」,然后点击OS版本7-10下变成开发者模式(会有提示)
变成开发者模式后要开启一些开关,依次进入「更多设置」→「开发者选项」,先打开最上面的开发者选项开关
接下来继续配置ADB,下载 安装包 ,这是一个apk,也就是一个安卓系统的安装包,点击下载:
下载后到下载的目录下,在下载的目录下打开cmd(或者打开后切换到下载目录)
做这一步之前请确认电脑连接了手机,在打开的cmd窗口输入指令
adb devices应该能看到类似下面输出:D:\python\github_porjects\Open-AutoGLM>adb devices List of devices attached 18b4f2a2 device也就是手机连接上了
然后执行下面指令,在手机上安装安装包
adb install ADBKeyboard.apk
然后继续执行开启输入法:
adb shell ime enable com.android.adbkeyboard/.AdbIME
adb shell ime set com.android.adbkeyboard/.AdbIME
2.Python配置
打开一个任意其他文件夹,然后打开cmd,先下载项目:(或手动下载zip并解压)
git clone https://github.com/zai-org/Open-AutoGLM.git
建议创建一个虚拟环境,作者推荐是3.10:
conda create -n auto-gml python=3.10 -y
conda activate auto-gml
在项目目录下执行下面代码下载依赖,项目目录就是main.py同级目录,默认是Open-AutoGLM。
pip install -r requirements.txt
pip install -e .
二、运行
项目提供了多种调用大模型的方案,最简单的就是直接调用智谱的接口,该方法需要自行注册一个账号,然后新建一个apiKey ,这个是调用需要的凭证,如下:
名称不重要,就是方便自己区分的,重要的是API key,把这个复制下来,填到下面的API key里面:
python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "你的API key" "打开美团搜索附近的火锅店"
看了看模型调用说是新模型免费,后续可能收费,目前免费。
上面这句话就是执行python代码开始调用大模型推理了,下面是我执行的过程:
手机也到了美团的相应界面:
三、总结
本人目前只是浅浅玩了一下,总体上来看还是惊喜比较多。
因为之前用过自动化脚本(比如selenium),所以对自动滑动点击这一块不是很意外,但是大模型不同于传统自动化预设的脚本,大模型的思考能力给了这种自动化无限可能,在我来看要是推理速度能够提高一些就好了,或许本地部署可以缓解这个问题?当然我也期待能看到更多玩法被开发出来!😃
有问题欢迎留言,如有错误可以指出