大家好,我是小悟。
最近在折腾本地 AI 的时候,无意间刷到腾讯优图开源的 Youtu-Tip。这个东西,挺有意思的。
它不是一个普通的聊天机器人,而是一套能跑在你电脑里的 AI 助手框架。屏幕内容、文件、网页,它都能“看见”,还能帮你点鼠标、敲键盘,把一堆重复性的操作接过去。
值得一提的是,它默认就支持完全离线运行,模型和数据都在你自己的设备里,这种感觉很不一样。
一个快捷键,AI 看懂你的屏幕
Youtu-Tip 的入口非常轻巧,按 Ctrl + Shift 就行,根据你当前的状态,有三种用法:
直接唤起:弹出对话窗口,输入问题即可。
划词使用:选中一段文字再按快捷键,AI 会直接基于这段文字续写、解释或翻译。
截图提问:按住快捷键不放,框选屏幕区域,松手后就能对截图内容进行解读。
它背后是腾讯自研的 Youtu-LLM-2B 模型,别看它只有约 2B 参数,却支持 128K 的超长上下文,读一篇长文档或者来回多轮对话都不在话下。
评测数据也挺亮眼,在常识、STEM、代码等任务上,它的表现不输一些更大的模型,甚至在部分 Agent 任务上还能反超。
会点鼠标键盘的 AI,才是真“助手”
如果只是能聊天,那它顶多算个加强版输入框。Youtu-Tip 真正厉害的地方在于,它内置了 GUI Agent 能力,可以像人一样操作你的电脑。
你可以让它:
帮你整理 Excel,把重点数据标红。
在浏览器里搜索、筛选信息,并把结果记录下来。
总结一篇文章,然后直接打开微信,把总结好的内容发给指定的人。
它完成这些任务的流程,本质上就是:看懂屏幕 → 规划步骤 → 模拟鼠标键盘操作 → 在应用之间搬运信息。
教一遍就会,把操作录成“技能”
你以为就这些吗?你还能“教”它新技能。比如,你经常需要翻译单词,就可以手动设置操作一遍,Youtu-Tip 会记录下你的输入步骤,保存成一个“技能”。
下次你只需要对它输入一个单词,它就能自己打开,自己选择,按你教的方法去搜索。
这套“技能录制 + 回放”的思路,让不懂编程的人也能把一套复杂的操作流程,变成一句简单的指令。
离线运行,隐私这块拿捏住了
现在大家对云端 AI 最大的顾虑,就是隐私。聊天记录、文档内容、截图,这些东西上传到服务器,心里总归不踏实。
Youtu-Tip 从设计上就把“数据不出设备”放在了第一位。它默认调用本地的 Youtu-LLM 模型,所有推理都在你自己的电脑上完成。
即使你完全断网,它的大部分功能依然可用。这种“端侧模型 + 本地 Agent”的组合,对于处理工作文档、内部资料或者任何你不想上传云端的内容,要安心很多。
当然,它也支持接入 Ollama 或其他兼容 OpenAI 接口的模型,如果你有自己的本地模型,也可以无缝替换。
开源社区
目前 Youtu-Tip 对 Mac M 系列芯片的支持最完整。
安装过程就是下载 dmg 包,拖进应用程序,然后按提示授权“屏幕录制”和“辅助功能”权限,之后就可以开玩了。
最后
从个人角度看,Youtu-Tip 把“会聊天的模型”往前推了一大步,变成了“能动手帮你干活的模型”。
在处理那些琐碎、重复、又不想自己动手的电脑操作时,确实能省下不少力气。
谢谢你看我的文章,既然看到这里了,如果觉得不错,随手点个赞、转发、在看三连吧,感谢感谢。那我们,下次再见。
您的一键三连,是我更新的最大动力,谢谢
山水有相逢,来日皆可期,谢谢阅读,我们再会
我手中的金箍棒,上能通天,下能探海