当 Agent 已经能自动写代码、跑测试、修 Bug 的时候,我发现了一个尴尬的事实:我打字的速度,跟不上 AI 干活的速度了。
用 Claude Code 写项目,最大的瓶颈早就不是"AI 能不能写对",而是"我能不能快速把需求说清楚"。一个复杂的功能描述,键盘敲完要两三分钟,AI 执行可能只要三十秒。
于是我花了一周时间,把市面上能找到的语音输入方案全部试了一遍。
结论先放这里:最好的方案不是什么高级工具,就是输入法自带的语音输入。
为什么 Agent 自带的语音方案都不好用
先说说我踩过的坑。
Claude Code 在今年 3 月上线了 /voice 命令,按住空格说话就能输入。听起来很美好,但有一个致命问题:不支持中文。对于中文开发者来说,你的需求描述、注释、commit message 里大量中文,这个功能直接废了一半。
Cursor 也有语音编辑功能,GitHub Copilot 也跟进了。但这些工具内置的语音输入有几个共同的毛病:
- 跟工具绑定,换个终端就没了
- 不够稳定,经常识别中断或者延迟很高
- 中英混合能力差,说一句"帮我写一个 API 接口处理 webhook 回调",识别出来的东西惨不忍睹
还有一些开源方案,比如 VoiceMode MCP,原理是通过 MCP 协议给 Claude Code 加语音。我试了,配置复杂,依赖多,日常用太折腾。
然后我突然想通了一件事:为什么非要在 Agent 里面解决语音输入的问题?
输入法本身就是干这个的。语音识别成文字,文字输入到任何输入框——包括终端。这不就是最自然的方案吗?
四大输入法语音输入实测
我测了四个主流输入法的语音输入能力,用同一句话:"帮我写一个 Docker Compose 配置,部署 Redis 和 PostgreSQL,加上健康检查和自动重启。"
macOS 原生听写
快捷键:双击 Fn 键
优点:零配置,M1 以上支持离线识别,延迟极低。
问题:技术术语基本全军覆没。Docker 变成"多克",PostgreSQL 不用想了,Kubernetes 每次说出来的都不一样。而且中英混合很差,需要手动切语言,不能在一句话里自然混用中英文。还有个烦人的地方——30 秒没声音就自动断了。
评价:写微信聊天够用,AI 编程场景不行。
搜狗输入法
之前我以为搜狗 Mac 版不支持语音输入,其实是支持的——双击 Option 键就能唤起。
但实际体验一般。 纯中文识别还行,官方说 98% 准确率,体感差不多。问题是技术术语和中英混输没有针对性优化,API 偶尔能对,Docker 经常变成"多克"。
更关键的是,搜狗这两年的更新基本是修 Bug,没有 AI 能力的迭代。在语音输入这个赛道上,搜狗已经掉队了。
讯飞输入法
老牌语音识别玩家,接入了星火大模型。
优点很明显:25 种方言支持,离线可用,1 分钟 400 字的转写速度。Mac 端和 Windows 端都有。
但对开发者场景没有专门优化。 技术术语识别率大概 91%,比原生听写好很多,但跟后面要说的豆包比还是有差距。Mac 版功能比手机端少一截。
讯飞的 AI 功能(智能纠错、润色)更适合写文章,不是为编程场景设计的。
豆包输入法(重点推荐)
字节跳动去年底发布的新输入法,基于自研的 Seed-ASR 2.0 模型。
一句话评价:中英混输目前最强,而且免费。
同样那句测试语句,豆包是唯一一个能完整识别出 Docker Compose、Redis、PostgreSQL 的输入法。中文语句里夹杂英文技术术语,它能自然地把英文词保留为英文,不会强行翻译或音译。
其他亮点:
- 支持轻声说话识别(不用吼)
- 支持离线模型
- 纯净无广告
- 完全免费
最大的遗憾:PC 端还没正式发布。 目前手机端已经很成熟了,Mac 版在内测中,Windows 版还在开发。我现在在手机上用豆包,Mac 上暂时用讯飞过渡。
据说豆包 PC 版的语音识别已经是业内最强水平了,等正式发布后我会第一时间更新测评。
如果你愿意折腾:Whisper 本地方案
对于隐私敏感或者想要极致体验的人,还有一条路:用 OpenAI 开源的 Whisper 模型在本地跑语音识别。
2025 年底发布的 Whisper v4,技术术语识别准确率达到了 99.2%,已经接近人类转写员水平。而且完全本地运行,音频不出设备。
几个值得关注的工具:
CapsWriter-Offline(免费,强烈推荐)
- 基于阿里 FunASR 模型,中文识别非常好
- 按住 CapsLock 说话,松开就上屏
- 免安装便携版,延迟 200ms 以内
- 支持热词自定义——你可以把项目里的变量名、API 名都加进去
Superwhisper($249 买断)
- 100% 本地处理,有个 Super Mode 能感知当前屏幕上下文
- 在 IDE 里会自动把口语转成代码风格的表述
- 但中英混合有已知 Bug,而且价格不便宜
Wispr Flow($15/月)
- 全平台覆盖,上下文感知
- 编程术语识别率 97.2%
- OpenAI 的 Codex 集成了它的引擎
- 是目前海外开发者圈最火的语音输入工具
我的最佳实践
用了一周语音输入写代码之后,我总结出一个原则:
语音说意图,键盘打精确值。
什么意思?需求描述、功能解释、Bug 复现步骤——这些用语音说,又快又自然。但文件路径、URL、变量名——这些还是键盘敲,语音识别再准也不如手打靠谱。
具体到工具选择:
| 场景 | 推荐方案 | 理由 |
|---|---|---|
| 中文开发者日常 | 豆包输入法 | 中英混输最强,免费 |
| 豆包 PC 版没出来之前 | 讯飞输入法过渡 | Mac/Win 都有,够用 |
| 纯英文指令 | Claude Code /voice | 零成本,编程术语优化好 |
| 隐私敏感 | CapsWriter-Offline | 完全本地,免费,中文优秀 |
| 预算充足追求极致 | Wispr Flow | 全平台,上下文感知 |
一个更大的趋势
语音输入只是一个切口。背后的趋势是:AI 编程的瓶颈正在从"AI 能力"转向"人机交互效率"。
2025 年,我们还在讨论 AI 能不能写对代码。2026 年,AI 写代码的能力已经足够好了,反而是"怎么更快地告诉 AI 你要什么"变成了新的效率瓶颈。
GitHub Copilot、Claude Code、Cursor 在过去半年密集上线语音功能,不是巧合。专门为开发者做语音输入的创业公司(Willow Voice、Wispr Flow、Aqua Voice)也在这一年集中冒出来。行业已经达成共识:键盘不是唯一的输入方式了。
下一步可能是什么?我猜是多模态输入——你对着屏幕说"把这个按钮移到左边",AI 能同时理解你的语音和你指的是哪个按钮。这个能力,一些工具已经在做了。
但现在,先把语音输入用起来。它不需要什么高级工具,一个好的输入法就够了。
试试双击 Fn 键说一句话,感受一下语音输入的速度。然后你会明白,为什么键盘在 AI 时代可能不是最优解。