用skills做了一个AI语音助手，可呼唤AI语音军团帮我干活了语音助手，我一直想自己拥有一个。近期，浏览到语音输入动

语音助手，我一直想自己拥有一个。

近期，浏览到语音输入动向，智谱AutoGLM、还有typeless语音助手，闪电的语音识别能力，于是自己动手vb coding了一个语音助手出来。

究其重点，我这个语音助手识别的速度和准确率一点也不输给AutoGLM。

折腾了三个晚上，先借助了opencode的里面的skills来制定产品规格文档和UI设计，关于AI开发流程控制的4个skills可追AI 开发必用的4个skills组合，用来流畅掌控AI开发流程，灵活控制AI（opencode skills），这篇文章skills领取的人数已经超过90位了，非常推荐去使用这个4个skills指令式的去和AI进行高效对话。

然后，语音桌面控制和语音输入文字插入文档，这个两个功能借助的Antigravity编辑器去开发，近期还能使用Gemini 3 Flash、Claude Opus等强大模型。

后端部分，借助了科大讯飞语音识别API的Java实现，主要用于中文语音识别。提供HTTP服务器接口接收音频数据，直接处理音频文件的识别。

语音助手我已经打包好了，一键安装即可，想试玩或语音输入党可后台发送语音助手，我可分享，提供语音APIkey。

01 全局语音唤醒

全局语音唤醒，Right Ctrl键唤醒语音助手，长按即说，松开即执行，即便输入了很长的一段话，1秒就能将语音闪电般转换为文字，下面是我进行的一些语音对话记录（连续语音对话），语音识别正确率80%+。

02 语音桌面控制

语音桌面控制，核心不再手动配置应用路径，而动态扫描 Windows 开始菜单，支持所有桌面软件（.exe）和 UWP （应用商店应用）。

桌面应用启动，我通常工作时需要开启的桌面应用较多（写文档、微信、聊天、IDE、浏览器），有时候脑子空白时，通过语音助手能快速启动应用，特别对于桌面一团糟的人来说，就能提高查找效率，也能直接在当前的窗口，直接唤起语音呼叫应用的到来。

我增加了智能容错匹配，即便语音识别出同音字、缩写，或者加上了软件、应用等修词，语音助手也能精准找到目标桌面应用，精准启动我们的桌面应用。关闭功能我暂时删除了，关闭对于多数人来说，不如手动点击关闭，来得更痛快。

启动之前会提示确认/取消，enter一键确认启动。如果3秒超时未确认，则会自动取消。

精确/变体匹配，先将语音识别出的文字进行去除空格、取首个单词等变形，尝试与系统 App 列表直接比对。如果第一步失败，会计算两个字符串之间的字符重叠比例。比如Focus See录屏软件，语音听成了Focus C 也能精确匹配到。

如果想语言丰富一些，比如 [ 你好你好，请启动Cursor ]，也是可行的。下面是我写文超时取消了启动，我另外语音启动时的截图，启动时会自动模糊匹配应用的AppID。

你好你好，请启动Cursor

正在发送识别请求...
识别结果: 你好你好，我的助手请启动Cursor。
正在执行: { action: 'start', app: 'Cursor' }
[模糊查询] 匹配成功: "Cursor" -> Cursor
找到应用 AppID: Anysphere.Cursor

写在最后

敲一下键盘就偷偷开始录音（PCM格式），利用 node-global-key-listener 监听键盘，它会不停轮询信号文件，发现文件存在就调用开始捕获麦克风数据，发现文件消失就停止把说的话实时丢给后端做语音转文字，后端识别完以后用 JS 正则表达式抓出指令，再交给 executeAppCommand 去执行，从键盘触发录音到语音指令执行的自动化流程，想想就挺丝滑的。

语音助手我已经打包好了，一键安装即可，想试玩或语音输入党可后台发送语音助手，我可分享，提供语音APIkey。

关注我，获取更多编程/AI实战教程！

vx： Auwubai 添加，入AI技术动向社群，我们一起卷卷AI。