语音助手,我一直想自己拥有一个。
近期,浏览到语音输入动向,智谱AutoGLM、还有typeless语音助手,闪电的语音识别能力,于是自己动手vb coding了一个语音助手出来。
究其重点,我这个语音助手识别的速度和准确率一点也不输给AutoGLM。
折腾了三个晚上,先借助了opencode的里面的skills来制定产品规格文档和UI设计,关于AI开发流程控制的4个skills可追AI 开发必用的4个skills组合,用来流畅掌控AI开发流程 ,灵活控制AI(opencode skills) ,这篇文章skills领取的人数已经超过90位了,非常推荐去使用这个4个skills指令式的去和AI进行高效对话。
然后,语音桌面控制和语音输入文字插入文档,这个两个功能借助的Antigravity编辑器去开发,近期还能使用Gemini 3 Flash、Claude Opus等强大模型。
后端部分,借助了科大讯飞语音识别API的Java实现,主要用于中文语音识别。提供HTTP服务器接口接收音频数据,直接处理音频文件的识别。
语音助手我已经打包好了,一键安装即可,想试玩或语音输入党可后台发送语音助手,我可分享,提供语音APIkey。
01 全局语音唤醒
全局语音唤醒,Right Ctrl键唤醒语音助手,长按即说,松开即执行,即便输入了很长的一段话,1秒就能将语音闪电般转换为文字,下面是我进行的一些语音对话记录(连续语音对话),语音识别正确率80%+。
02 语音桌面控制
语音桌面控制,核心不再手动配置应用路径,而动态扫描 Windows 开始菜单,支持所有桌面软件(.exe)和 UWP (应用商店应用)。
桌面应用启动,我通常工作时需要开启的桌面应用较多(写文档、微信、聊天、IDE、浏览器),有时候脑子空白时,通过语音助手能快速启动应用,特别对于桌面一团糟的人来说,就能提高查找效率,也能直接在当前的窗口,直接唤起语音呼叫应用的到来。
我增加了智能容错匹配,即便语音识别出同音字、缩写,或者加上了软件、应用等修词,语音助手也能精准找到目标桌面应用,精准启动我们的桌面应用。关闭功能我暂时删除了,关闭对于多数人来说,不如手动点击关闭,来得更痛快。
启动之前会提示确认/取消,enter一键确认启动。如果3秒超时未确认,则会自动取消。
精确/变体匹配,先将语音识别出的文字进行去除空格、取首个单词等变形,尝试与系统 App 列表直接比对。如果第一步失败,会计算两个字符串之间的字符重叠比例。比如Focus See录屏软件,语音听成了Focus C 也能精确匹配到。
如果想语言丰富一些,比如 [
你好你好,请启动Cursor ],也是可行的。下面是我写文超时取消了启动,我另外语音启动时的截图,启动时会自动模糊匹配应用的AppID。
你好你好,请启动Cursor
正在发送识别请求...
识别结果: 你好你好,我的助手请启动Cursor。
正在执行: { action: 'start', app: 'Cursor' }
[模糊查询] 匹配成功: "Cursor" -> Cursor
找到应用 AppID: Anysphere.Cursor
写在最后
敲一下键盘就偷偷开始录音(PCM格式),利用 node-global-key-listener 监听键盘,它会不停轮询信号文件,发现文件存在就调用开始捕获麦克风数据,发现文件消失就停止把说的话实时丢给后端做语音转文字,后端识别完以后用 JS 正则表达式抓出指令,再交给 executeAppCommand 去执行,从键盘触发录音到语音指令执行的自动化流程,想想就挺丝滑的。
语音助手我已经打包好了,一键安装即可,想试玩或语音输入党可后台发
送语音助手,我可分享,提供语音APIkey。关注我,获取更多编程/AI实战教程!
vx:
Auwubai添加,入AI技术动向社群,我们一起卷卷AI。