大家好,我是袋鼠帝。
一直以来,我都觉得,对于 AI Agent 来说,最好的 Skill(技能)就是各种APP。
APP们才是被无数产品经理、开发者精心打磨、精密封装出来的终极Skills,它们功能强大、运行稳定、极其封闭。
特别是在国内,大部分APP 都是不那么 Open 的。
需要身份验证、有各种加密机制、以及防止爬虫的无数的反制措施。
所以,你想让 AI 去自动化操作这些 APP,难度非常高。
当然,少数 APP 提供了 CLI(命令行界面)供外部调用,这也是理论上最适合 Agent 操作的方式。
但是,CLI需要各家 APP厂商主动去开发适配,推进极其缓慢。
目前我了解到提供CLI的只有飞书,钉钉等,整个生态的进度很慢。要丝滑打通所有APP,不知道要等到啥时候去了。
不过最近,我发现了一个宝藏开源项目,可以解决这个问题。它叫 Turix CUA。
开源不久,在 GitHub 上已获得 2.3K Star。
项目地址:
github.com/TurixAI/Tur…
什么是 CUA?简单解释一下,CUA 全称是 Computer Use Agent,也就是计算机操作智能体。如果说大模型是 AI 的大脑,那 CUA 就是 AI 的手和眼。它可以通过视觉识别屏幕上的内容,然后模拟人类的鼠标点击和键盘输入去操作电脑。
Turix 有开箱即用的桌面版。
你还可以把它作为一个 Skill,直接接入到龙虾(OpenClaw)、爱马仕(Hermes Agent)、Claude Code、Codex 等各种 Agent 里,直接让它们实现 APP 自由!
比如,我用它来控制微信,帮我全自动通过积累的好友验证请求。
甚至,我还能让它去扮演元宝的男朋友,在微信里自动跟元宝聊天。
并且,它的操作速度还挺快。
大概比正常人熟练操作慢一半,但在目前的 CUA 领域,这已经算是非常迅速了。
一、安装使用:
1.给 Agent 安装
给Agent安装也不难。
比如可以直接把 Turix 的 GitHub 链接丢给Codex,下达指令:
Codex很快就帮我把环境拉下来并配置好了。
这玩意儿安装好之后,相当于在你的主 Agent 之下,挂载了一个专门负责动手的小跟班(也就是一个 CUA 子智能体)。
所以,你还需要给这个子智能体单独配置一个带有强大视觉识别能力的模型API。
这块也可以直接大白话丢给你的本地 Agent 帮搞定。
Turix 支持自定义配置模型。比如你可以配置自己常用的 API 中转站,只需要提供 API Key、模型名称和 Base URL(API 地址),让本地Agent帮你写进配置文件即可。
另外,Turix官方其实也自研了专门针对GUI(图形用户界面)操作微调或者训练过的模型,分为turix-brain 和 turix-actor。官方推荐组合效果最佳。
只需要去 Turix 的官网 API 平台获取一个 api key: turixapi.io/console/tok…
新建一个API Key,然后把这个 Key 提供给本地Agent,让它帮你配置即可(不用再配模型名称和Base URL,因为默认自带了官方模型的指向)。
配置好之后,你就可以把那些以前没法在浏览器和纯API层面完成的脏活累活,全部交给这个智能体了。
我发现注册之后,账户余额里居然自动了100万Tokens,还不错,可以上来先白嫖一波免费的。
如果你觉得用命令行去操纵 Agent 安装对你来说有门槛,或者你只想单纯体验一下电脑被自动操控的快感,也有一键安装的 Turix 桌面版。
官网地址:turix.ai/
桌面版的优点是安装即用,有优化的图形界面。Work(办公)模式和 Chat(聊天)模式结合。
以及桌面版在安全权限上做得更好。在涉及到文件删除、发送邮件等关键步骤时,它都会弹窗向用户询问请求,不会一股脑乱动你的电脑。
而且,我实测发现,相比于把Turix作为skill接入到其他Agent里,直接使用Turix的桌面版,执行速度会更快。
所以,下面我录屏的任务,都是使用Turix桌面版来完成的。
当AI操纵你的电脑
先让它找首歌听听
我一上来先尝试了一个相对简单的娱乐任务。
打开QQ音乐帮我找到QQ音乐热歌榜,播放周杰伦的歌
它完成得极其轻松。直接拉起QQ音乐,点击排行,找到热歌榜,然后点击了第一首歌的MV播放按钮。
好了,我们回归正题
我准备试一试让它去操纵国内最封闭的国民APP:微信
微信全自动通过好友请求
平时微信加我的人不少,逐条挨个定时同意,手动一个一个去同意,还是比较费时间的。
这次我决定用Turix试试。
用CUA操作微信最大的好处是,没有封号风险。因为它本质上就是在模拟正常人的鼠标点击和滑动,根本不涉及底层协议破解或者API劫持。
打开电脑微信,打开微信侧边的通讯录,展开新的朋友,这里面有很多等待验证的朋友请求,挨个开始,它们点击确定,通过,然后一个一个执行,直到全部通过为止
看着鼠标自动在屏幕上有条不紊的点击、验证通过、返回、再点击下一个,那种把重复劳动甩给AI的爽感,绝了。
微信指数查询自动化
平时写文章,我经常需要去查各种热词的微信指数。这也属于枯燥的重复劳动。
那就让它帮我看看OpenClaw最近的热度怎么样了
它极其精准的找到了微信指数,打开了微信指数小程序,最终查询到OpenClaw的微信指数(热度越来越低了)。整个流程一气呵成。
有了这个基础,完全可以每天让它定时去跑很多个关键词的指数,监控热点。
赛博男友在线代聊
那能不能让它直接帮我回消息?
我直接让它扮演元宝的男朋友,跟元宝去聊聊,看看是怎么个事儿
打字发送的过程极其丝滑。
角色扮演也相当入戏,开口就是:“宝贝,在干嘛呢?想你啦~😂”
还会根据元宝发来的表情包做出恰当的文字回应。
整个对话进行了好多轮,甜蜜程度爆表💖🥰
但也暴露出了Turix目前的一个问题。
它好像容易聊嗨了。对于我规定的 聊5轮结束 这个数字限制不敏感。
两"人"你一言我一语,对话轮数远远超出了5轮,最后还是我强行干预才停下来。
希望官方能尽快优化它对数字的约束能力。
发现了问题怎么办?让它自己给自己提Bug
也就是让Turix自己去提Issue(问题报告)!
直接套娃,哈哈
丝滑的打开正在使用的浏览器,因为已经登录了我的github账号,就不用重新登录了。
然后不是只填原话,而是根据自己的理解和issue的格式,填写了一条标准的issue信息,并顺利提交了~
然后我发现,Turix在操作浏览器时的丝滑程度,简直就像大学生做小学题一样。感觉比操作APP更丝滑
顺带提一嘴,前两天,Codex桌面版也更新了,同样支持了操纵本地APP的功能。
我也体验了一下Codex的CUA能力
坦白说白,在基础的点击准确率上,两者效果差不多。
Codex的操作有时候也会显得迷惑。
比如我让它去QQ音乐里播放周杰伦新专辑,它死活敲不出汉字,在那给我整个拼音瞎搜。
相比之下Turix的架构明显更加灵活。因为它是完全开源的,它可以被当成一个底层的能力模块,接入到任何你喜欢的Agent框架里当Skill用。
你也可以随意给它更换更强大的视觉大模型底座,上限很高。
在CUA的执行速度上,Codex桌面版也会比turix桌面版稍慢一些。
但是Codex好的一点是,点击的时候不会抢鼠标,会生成一个新的鼠标来点击。而Turix会抢鼠标,希望这块官方也能尽快优化一下子。
最后
从技术的角度来看,让Agent操纵各种APP,最稳定、最高效的终极方案绝对是底层API调用或者CLI命令行。
但是,目前必须面对现实。CLI这项技术虽然古老且成熟,但在国内这种处处建护城河的互联网大环境下,愿意主动开放系统底层接口的官方APP屈指可数。
所以,我认为在未来一段时间内,CUA(计算机视觉操作)还是最普适性的APP自动化方案。
特别是当CUA再进化一段时间后,操作速度和准确度会更上一层楼。
到那时候,CUA的工作模式绝对会颠覆传统RPA行业的。
因为使用RPA,你需要程序员去写复杂的抓取脚本,网页一旦改版,脚本就得重写。而且上手门槛也挺高的。
而CUA,你只要用大白话下达一次指令,它如果准确熟练地成功执行了一次,能立刻把这套操作流程沉淀成一个经验Skill。下次你再让它干同样的活,直接调用这个Skill,就能更快、更稳的完成任务。
这就相当于你花十分钟教了一个聪明的徒弟,以后这活儿就是他的了。
你怎么看,想要操纵什么APP干什么事情,欢迎在评论区一起开脑洞交流~
我是袋鼠帝,一个致力于帮你把AI变成生产力的博主,我们下期见~