用 Claude Code 写代码有一个很现实的瓶颈:你的手速。
Claude 的思考和生成速度越来越快,但你给它下指令、描述需求、解释上下文——还是在一个字一个字地敲键盘。一段复杂的需求描述打字要一两分钟,说出来只要十几秒。
这个差距在 AI 编程时代被急剧放大了。传统编码时代,你 80% 的时间在思考,20% 在打字,手速不是瓶颈。但现在用 Claude Code,你变成了"需求描述员"——思考和输入的比例倒过来了,打字成了最大的效率损耗。
所以语音输入不再是"酷",而是刚需。
2026 年 Q1,这个赛道突然热闹起来:Claude Code 加了原生语音模式,Willow Voice 带着 200ms 延迟杀入,Wispr Flow 全平台铺开,开源社区也在疯狂造轮子。我花了一周时间把市面上能找到的方案都试了一遍,整理出这份横评。
一、先说结论
如果你不想看长文,直接抄作业:
| 你的情况 | 推荐方案 | 月成本 |
|---|---|---|
| 纯英文开发,Claude Code 用户 | Claude Code /voice | $0 |
| 英文开发,追求极致识别精度 | Willow Voice | $15/月 |
| 中英混合,重度 Claude Code 用户 | 豆包输入法(语音)+ /voice | $0 |
| 全平台同步,不只写代码 | Wispr Flow | $15/月 |
| 隐私敏感,代码不能上云 | Superwhisper(本地模式) | $249 买断 |
| 预算为零,能折腾 | CapsWriter-Offline 或 VoiceInk | $0 |
下面逐个拆。
二、第一梯队:专为开发者设计
1. Claude Code 原生 /voice —— 零成本起步
Claude Code v2.1.69 起内置语音模式。终端输入 /voice,按住空格说话,松开发送。
优点显而易见:零配置、零额外成本(包含在 Claude Pro/Max/Team 订阅中)、对编程术语做了优化(regex、OAuth、JSON、localhost 等直接识别),还会自动把你的项目名和 git 分支名作为识别提示。
但有几个硬伤:
- 只支持 Claude.ai 账号登录,API Key / Bedrock / Vertex 用户无法使用
- 需要本地麦克风,SSH 远程开发不行
- 不支持中文(支持 20 种语言,中文不在列表里)
- 按住空格有预热延迟——建议在
~/.claude/keybindings.json里改成meta+k等修饰键组合
体感:英文场景下够用,延迟可以接受。但如果你是中英混合使用者,它帮不了你。
2. Willow Voice —— 2026 年的黑马
今年 2 月才上线,但数据很亮眼:
- 200ms 延迟——目前同类最快
- 自动索引你的代码库——你项目里的变量名、函数名、组件名,它都能直接识别,不用手动训练
- 专门针对开发者词汇训练(SQL、REST、CSS、React、Git 等)
- 官方宣称准确率是 Apple 原生听写和 Wispr Flow 的 3 倍(针对代码相关术语)
平台:Mac、Windows、iOS。价格:免费版每周 2000 词,Pro 12/月)。
我的判断:如果你主要用英文开发,这可能是目前最值得试的。200ms 延迟意味着几乎感觉不到等待,代码库索引功能解决了专有名词识别的核心痛点。短板是太新了,用户基数小,中文支持没有明确信息。
3. Wispr Flow —— 全能型选手
全平台(Mac、Windows、iOS、Android),上下文感知——在终端说话和在 Slack 里说话,输出格式不一样。编程术语基准测试 97.2%。
OpenAI 的 Codex 选择集成 Wispr Flow 的转写引擎而不是自建——说明专业语音转写有壁垒。
价格:免费版每周 2000 词,Pro 12/月)。SOC 2 Type II + HIPAA 合规。
但有争议:Reddit 上 2 月份出现了"Wispr Flow 信任危机"的帖子,部分用户反映免费试用期结束后质量下降。官方延迟 500-700ms,体感比 Willow Voice 慢不少。
适合谁:需要跨平台、不只用于编程的人。如果你既写代码又写文档、邮件、聊天,Wispr Flow 是一站式方案。
4. Aqua Voice —— 术语识别最强
YC 投资,自研 Avalon 模型,专门针对编程术语训练。useEffect、kubectl、PyTorch 直接说就行。官方准确率 97.3%,延迟 <450ms。
Pro 版支持最多 800 个自定义词条的项目词典。价格:96/年。Mac + Windows。
定位清晰:不做通用听写,专注开发者场景。如果你在终端和编辑器之间高频切换,每天大量使用技术术语,Aqua Voice 的性价比很高。
三、第二梯队:通用语音工具中的佼佼者
5. Superwhisper —— 隐私至上
基于 Whisper 模型,100% 本地处理,音频永远不出你的电脑。Andrej Karpathy 和 Vercel CEO Guillermo Rauch 都公开推荐过。
平台:macOS(主力)、Windows、iOS。价格:Pro 84.99/年 | $249 买断终身。
优点:完全离线、隐私无忧、可自定义不同场景的"模式"(邮件模式、代码注释模式等)。
痛点:中英混合切换有已知 Bug(GitHub 上 94 票的 pending issue),双语用户要留意。本地模型有 1-2 秒延迟,精度不如云端方案。
选它的理由:你的代码涉密,不能发到任何云端。或者你在没网的环境下工作。买断制也适合长期使用者。
6. Voibe —— 一次买断的 IDE 内置方案
平台:Mac(VS Code 和 Cursor 集成)。价格:$99 买断终身。100% 本地处理。
有专门的 Developer Mode,直接在 IDE 里用语音。不走系统输入法,而是深度集成到编辑器。
适合谁:主力在 VS Code / Cursor 里工作,想要一次付费不再操心的人。
7. Typeless —— 多语言切换最自然
2025 年 11 月上线,主打自动检测 100+ 语言,中英切换不需要手动切输入法。零数据留存政策。
平台:全平台(Web-based)。价格:免费版可用 | $144/年。
最大卖点:如果你经常在中文和英文之间切换,又不想手动切输入法,Typeless 的 code-switching 体验目前最自然。
四、中英混合输入:单独拎出来说
这是很多中国开发者的核心痛点——你跟 Claude Code 对话时,需求描述用中文,但变量名、API 名、技术术语是英文。
目前专业语音工具普遍对中文支持一般,反倒是国产输入法的语音功能做得最好:
| 工具 | 中文准确率 | 中英混合 | 价格 | 离线 |
|---|---|---|---|---|
| 微信输入法(语音) | 97%+ | 优秀 | 免费 | 否 |
| 豆包输入法(语音) | 顶级(Seed-ASR2.0) | 优秀 | 免费 | 支持 |
| 讯飞输入法(语音) | 顶级 + 23种方言 | 优秀 | 免费 | 部分 |
| CapsWriter-Offline | 优秀(FunASR) | 良好 | 免费 | 完全离线 |
| macOS 原生听写 | 良好 | 一般 | 免费 | M1+ 支持 |
我的推荐:
如果你不介意云端处理——豆包输入法。字节的 Seed-ASR2.0 模型在中文语音识别上是目前最强之一,支持离线,免费,中英混合自然。微信输入法也很好,但不支持离线。
如果你要完全离线——CapsWriter-Offline。基于阿里达摩院的 FunASR 模型,中文准确率超过 Whisper,开源免费。
最佳实践:双工具组合
用国产输入法语音处理中文内容 + Claude Code /voice 处理纯英文编程指令。两者系统级共存,根据场景随时切换。
五、开源 / 免费方案
如果你预算为零但愿意折腾:
CapsWriter-Offline
基于阿里达摩院 FunASR,中文识别超过 Whisper。完全离线,免费开源。Mac/Windows。中文开发者的首选免费方案。
VoiceInk
开源(GPL v3),macOS,基于 whisper.cpp。GitHub 4300+ star,活跃维护中。$25 单台 Mac,或者从源码免费编译。
whisper.cpp
OpenAI Whisper 的 C++ 移植版,支持 CUDA/Metal/Vulkan,比原版快 2-10 倍。支持实时 VAD,90+ 语言。适合自己搭建语音输入管道。
VoiceMode MCP
通过 MCP 协议给 Claude Code 加双向语音——不仅能语音输入,还能语音输出。支持本地 Whisper STT + Kokoro TTS,完全不依赖外部 API。适合想要"对话式编程"体验的人。
六、完整对比表
| 工具 | 价格 | 延迟 | 离线 | 中文 | 开发者术语 | 平台 |
|---|---|---|---|---|---|---|
| Claude Code /voice | 免费* | 有预热 | 否 | 不支持 | 优秀 | Mac/Linux/Win |
| Willow Voice | $15/月 | 200ms | 支持 | 未知 | 最强 | Mac/Win/iOS |
| Wispr Flow | $15/月 | 500-700ms | 否 | 部分 | 优秀 | 全平台 |
| Aqua Voice | $8/月 | <450ms | 否 | 未知 | 优秀 | Mac/Win |
| Superwhisper | $249买断 | 1-2s | 完全 | 有Bug | 一般 | Mac/Win/iOS |
| Voibe | $99买断 | 快 | 完全 | 未知 | 优秀(IDE) | Mac |
| Typeless | $144/年 | 中等 | 否 | 支持 | 一般 | 全平台 |
| 豆包输入法 | 免费 | 快 | 支持 | 97%+ | 无 | Mac/Win |
| CapsWriter-Offline | 免费 | 快 | 完全 | 优秀 | 无 | Mac/Win |
| VoiceInk | $25/免费 | 快 | 完全 | Via Whisper | 无 | Mac |
| macOS 原生听写 | 免费 | 即时 | M1+ | 支持 | 无 | Mac |
| VoiceMode MCP | 免费 | 取决于模型 | 可选 | Via Whisper | 无 | 全平台 |
*包含在 Claude Pro/Max/Team/Enterprise 订阅中
七、使用技巧
1. 分段说,不要一口气讲完
语音输入最怕的不是某个词识别错,而是连续说了三分钟,中间出了问题整段重来。把需求拆成几步:先说方向,确认 Claude 理解了,再说细节。
2. 语音说意图,键盘打精确值
"这个函数的问题是没有处理并发请求的竞态条件"——说出来十几秒,打字要一分钟。
但文件路径、URL、变量名——还是键盘敲。Claude Code 支持同一条消息混合语音和打字。
3. 用 CLAUDE.md 减少重复解释
项目的技术栈、命名规范、架构约定写进 CLAUDE.md,Claude Code 每次启动自动读取。不用每次语音解释项目背景。
4. 保持 Normal 权限
语音输入难免误识别。建议在语音模式下保持 Normal 权限,让 Claude Code 执行操作前确认。防止一句错误指令搞坏代码。
八、我的选择
说说我自己的方案:日常开发用 Claude Code /voice 处理英文指令(零成本、原生集成),中文内容用豆包输入法语音(免费、中英混合最自然)。两个组合覆盖了 95% 的场景。
偶尔遇到涉密项目,切换到 Superwhisper 本地模式。
如果你还没试过语音编程,今天就在 Claude Code 里输入 /voice 试试。一旦习惯了用嘴描述需求、用 AI 写代码,你会发现回不去了。
参考来源