最近 “AI 辅助编程” 的话题又火了起来。各种 AI 编程工具不断涌现,不仅让程序员如虎添翼,还吸引了大量没有编程经验的 AI 爱好者迈入编程的大门。
不过,虽然我们指挥 AI 就能把代码写了,但不停打字输入指令也稍显枯燥。如果我们只需动口、不用动手,那编程体验岂不是更加丝滑?今天魔法哥就来分享 “语音编程” 小妙招!
GitHub Copilot
说起来,Copilot 在这方面的尝试是最早的,体验也是最好的。
他们早在去年就内测了 Copilot Voice 这款实验性的产品,已经做到了不错的完成度。后来这款产品被取消,魔法哥还遗憾了好久。幸运的是,“语音编程” 的愿望很快借助 VS Code Speech 插件又重新实现了!
效果展示
VS Code Speech 是微软官方出品的插件,具备语音/文字的双向转换能力,与 Copilot Chat 深度融合。毕竟是一家人呀,配合得天衣无缝。
比如,在所有可以聊天的界面(包括行内聊天、快速聊天、聊天面板等),都可以唤起语音输入来提出问题或要求;同时,我们也可以要求它以语音的方式读出回复。
这里有一个细节相当贴心,激活语音输入的快捷键和唤起行内聊天的快捷键是相同的(都是
⌘I
或Ctrl+I
)——这样不仅好记,而且相当于连接两次这个快捷键就可以启动行内聊天并激活语音对话模式,极其爽快!
此外,在编辑区内,我们也可以借助快捷键(⌥⌘V
或 Ctrl+Alt+V
)来激活语音输入,通过口述来输入内容。这在写文档或写注释时就相当舒适了!
是不是很心动?下面就跟魔法哥来一步一步安装配置。
安装插件
要获得完整的语音编程功能,我们需要安装以下 4 款插件:
- GitHub Copilot:这是 Copilot 编程助手的主插件。
- GitHub Copilot Chat:这个插件提供了 Copilot 的所有聊天功能。
- VS Code Speech:这是微软官方出品的语音插件。
- Chinese (Simplified, China) language support for VS Code Speech:这个看名字就知道了,是中文语音的识别 + 合成的数据包。
我们 VS Code 的左侧边栏打开 “扩展” 面板,搜索并安装这 4 款插件即可。安装之后,我们还需要完成必要的配置。我们选择菜单 “VS Code → 首选项 → 设置”,打开设置页面,在搜索框输入 “voice” 就可以找到语音输入的相关配置项。
最重要的一项就是 “Accessibility › Voice: Speech Language”,我们需要把它设置为 “中文(简体,中国)”,这样刚刚安装的中文语音包就可以发挥作用了。
值得一提的是,这个语音包是完全运行在本地的,语音识别和合成都不需要联网,所以速度很快。它的识别准确度也相当高,使用体验十分流畅。
更多配置
其他几个配置项也可以尝试一下:
-
Accessibility › Voice: Speech Timeout:可以设置语音停顿多长时间就视为已经输入完毕,这样每次说完就不需要手动按
Esc
来退出语音输入状态了。 -
Accessibility › Voice: Keyword Activation:我们可以通过 “Hey Code” 这样的关键词来唤醒语音输入,这样的 Copilot 是不是更有 AI 助手的感觉了?我们需要在这里选择唤醒语音输入后进入哪个交互场景,比如行内聊天、快速聊天或聊天面板等,一旦它听到我们召唤之后就会启用相关的功能。
-
Accessibility › Voice: Auto Synthesize:打开这个选项,我们可以完全进入语音对话的状态——只要我们在聊天界面是通过语音来提问的,VS Code 也会自动通过语音来回答我们。
经过这一番操作之后,你的 VS Code 就化身成真正能跟你 “对话” 的 AI 编程助手了!魔法哥感觉这种交互体验既舒适又有趣,大家不妨也尝试起来。
Cursor
Cursor 最近真是火得不行,它在功能和体验方面确实有不少创新。不过遗憾的是,它目前还没集成原生的语音交互能力,因此就需要我们自己来想想办法,变通实现语音编程的效果。
VS Code Speech
等等,这不是我们刚刚介绍的 Copilot 配套语音插件吗,它也能给 Cursor 用吗?没错,Cursor 其实就是 VS Code 的一个定制版,兼容 VS Code 插件体系。所以我们先装上试试再说!
与 VS Code 的操作类似,我们在 Cursor 中装好 VS Code Speech 插件和中文语音包,再设置好语言,就可以在 Cursor 里用上微软出品的语音输入功能了!
实际测试发现,我们确实可以在编辑区激活这个插件,实现听写效果(快捷键 ⌥⌘V
或 Ctrl+Alt+V
)。在输入大段文本,或通过注释来写提示词时,这个听写功能还是相当好用的。
不过,在行内聊天(⌘K
)、Composer(⌘I
)、Notepad(⇧⌘I
)和聊天面板等输入框中,VS Code Speech 则无法激活。毕竟不是一家人,还是有点水土不服呀!而且未来它们相互兼容的可能性也不大,我们还得另谋出路。
操作系统的语音输入
不论是 macOS 还是 Windows,操作系统都自带了语音输入功能。我们可以借助这一点,变相实现 Cursor 的语音交互。
由于魔法哥的主力电脑是 MacBook,以下操作就以 macOS 为例;使用 Windows 的小伙伴可以自行搜索 Windows 下的操作步骤。
我们打开 “系统偏好设置”,切换到 “键盘 → 听写” 面板,进行如下设置:
- 听写:打开。
- 语言:添加 “中文(普通话 - 中国)” 并勾选。
- 快捷键:默认的 “按住 Fn 键” 就不错,按住讲话就开始识别,松手就表示听写结束。当然你也可以自定义其他的按钮组合。
设置好之后,我们就可以在 Cursor 的任何输入框中,按下快捷键来激活语音输入了!虽然这是一种外部的变通手段,但如果快捷键足够自然的话,所获得的体验也是相当不错的。
如果你对系统自带的语音输入准确率不够满意,还可以继续尝试其他办法。
输入法的语音输入
像搜狗、讯飞等中文输入法也都提供了语音输入功能,对方言的识别率也相当高,因此我们可以在 Cursor 中通过这些输入法来实现语音输入。
只要配置好顺手的快捷键,输入法的语音输入体验也并不逊于系统自带的听写功能,甚至效率更高。具体的操作方法这里就不赘述了,大家应该可以搞定。
小结
语音交互让 AI 编程的体验再次升级!为 GitHub Copilot、Cursor 等 AI 编程工具激活语音输入,动动嘴就能写代码,既轻松又高效。赶紧去试试吧!
魔法哥最近一年都在做 AI 领域的研发和探索,下期分享更精彩。各位新朋友请点关注,下次更新不迷路。
🔥 往期推荐
AI 应用开发指南:
- 我竟然找到了白嫖 GPT-4o API 的方法!亲测可用,不看血亏!
- GPT-4o API 实测解析:开发者的福音还是挑战?
- Kimi API 还没用起来?请看这篇无门槛快速入门指南
- 解答 Kimi API 常见问题,顺便探讨 AI 应用开发的那些事儿
- 国产大模型又出黑马!DeepSeek 初体验,价格屠夫大杀四方
ChatGPT 高级技巧:
- ChatGPT 网页版崩了?魔法哥写个用户脚本来修复
- 买了 ChatGPT 会员却没用过 “代码解释器”?亏了,快看这三个案例
- ChatGPT 定制化进阶:四步成为 AI 对话高手
- GPTs 商店开张,坐等赚钱之际,别忘了做好防盗工作
AI 资讯与评述:
- 扒一扒 OpenAI 新出的 o1 大模型:为什么这么强?
- 全面升级!GPT-4o 第一时间体验、疑问解答、福利揭秘
- 答应我!这个周末啃下微软认证 AI 证书,亮瞎众人
- 我悄悄建了一个 AI 网址导航,相信对你也有用
© Creative Commons BY-NC-ND 4.0