AI编程效率瓶颈不是模型,是你的打字速度

11 阅读1分钟

当 Agent 已经能自动写代码、跑测试、修 Bug 的时候,我发现了一个尴尬的事实:我打字的速度,跟不上 AI 干活的速度了。

用 Claude Code 写项目,最大的瓶颈早就不是"AI 能不能写对",而是"我能不能快速把需求说清楚"。一个复杂的功能描述,键盘敲完要两三分钟,AI 执行可能只要三十秒。

于是我花了一周时间,把市面上能找到的语音输入方案全部试了一遍。

结论先放这里:最好的方案不是什么高级工具,就是输入法自带的语音输入。

为什么 Agent 自带的语音方案都不好用

先说说我踩过的坑。

Claude Code 在今年 3 月上线了 /voice 命令,按住空格说话就能输入。听起来很美好,但有一个致命问题:不支持中文。对于中文开发者来说,你的需求描述、注释、commit message 里大量中文,这个功能直接废了一半。

Cursor 也有语音编辑功能,GitHub Copilot 也跟进了。但这些工具内置的语音输入有几个共同的毛病:

  1. 跟工具绑定,换个终端就没了
  2. 不够稳定,经常识别中断或者延迟很高
  3. 中英混合能力差,说一句"帮我写一个 API 接口处理 webhook 回调",识别出来的东西惨不忍睹

还有一些开源方案,比如 VoiceMode MCP,原理是通过 MCP 协议给 Claude Code 加语音。我试了,配置复杂,依赖多,日常用太折腾。

然后我突然想通了一件事:为什么非要在 Agent 里面解决语音输入的问题?

输入法本身就是干这个的。语音识别成文字,文字输入到任何输入框——包括终端。这不就是最自然的方案吗?

四大输入法语音输入实测

我测了四个主流输入法的语音输入能力,用同一句话:"帮我写一个 Docker Compose 配置,部署 Redis 和 PostgreSQL,加上健康检查和自动重启。"

macOS 原生听写

快捷键:双击 Fn 键

优点:零配置,M1 以上支持离线识别,延迟极低。

问题:技术术语基本全军覆没。Docker 变成"多克",PostgreSQL 不用想了,Kubernetes 每次说出来的都不一样。而且中英混合很差,需要手动切语言,不能在一句话里自然混用中英文。还有个烦人的地方——30 秒没声音就自动断了。

评价:写微信聊天够用,AI 编程场景不行。

搜狗输入法

之前我以为搜狗 Mac 版不支持语音输入,其实是支持的——双击 Option 键就能唤起。

但实际体验一般。 纯中文识别还行,官方说 98% 准确率,体感差不多。问题是技术术语和中英混输没有针对性优化,API 偶尔能对,Docker 经常变成"多克"。

更关键的是,搜狗这两年的更新基本是修 Bug,没有 AI 能力的迭代。在语音输入这个赛道上,搜狗已经掉队了。

讯飞输入法

老牌语音识别玩家,接入了星火大模型。

优点很明显:25 种方言支持,离线可用,1 分钟 400 字的转写速度。Mac 端和 Windows 端都有。

但对开发者场景没有专门优化。 技术术语识别率大概 91%,比原生听写好很多,但跟后面要说的豆包比还是有差距。Mac 版功能比手机端少一截。

讯飞的 AI 功能(智能纠错、润色)更适合写文章,不是为编程场景设计的。

豆包输入法(重点推荐)

字节跳动去年底发布的新输入法,基于自研的 Seed-ASR 2.0 模型。

一句话评价:中英混输目前最强,而且免费。

同样那句测试语句,豆包是唯一一个能完整识别出 Docker Compose、Redis、PostgreSQL 的输入法。中文语句里夹杂英文技术术语,它能自然地把英文词保留为英文,不会强行翻译或音译。

其他亮点:

  • 支持轻声说话识别(不用吼)
  • 支持离线模型
  • 纯净无广告
  • 完全免费

最大的遗憾:PC 端还没正式发布。 目前手机端已经很成熟了,Mac 版在内测中,Windows 版还在开发。我现在在手机上用豆包,Mac 上暂时用讯飞过渡。

据说豆包 PC 版的语音识别已经是业内最强水平了,等正式发布后我会第一时间更新测评。

如果你愿意折腾:Whisper 本地方案

对于隐私敏感或者想要极致体验的人,还有一条路:用 OpenAI 开源的 Whisper 模型在本地跑语音识别。

2025 年底发布的 Whisper v4,技术术语识别准确率达到了 99.2%,已经接近人类转写员水平。而且完全本地运行,音频不出设备。

几个值得关注的工具:

CapsWriter-Offline(免费,强烈推荐)

  • 基于阿里 FunASR 模型,中文识别非常好
  • 按住 CapsLock 说话,松开就上屏
  • 免安装便携版,延迟 200ms 以内
  • 支持热词自定义——你可以把项目里的变量名、API 名都加进去

Superwhisper($249 买断)

  • 100% 本地处理,有个 Super Mode 能感知当前屏幕上下文
  • 在 IDE 里会自动把口语转成代码风格的表述
  • 但中英混合有已知 Bug,而且价格不便宜

Wispr Flow($15/月)

  • 全平台覆盖,上下文感知
  • 编程术语识别率 97.2%
  • OpenAI 的 Codex 集成了它的引擎
  • 是目前海外开发者圈最火的语音输入工具

我的最佳实践

用了一周语音输入写代码之后,我总结出一个原则:

语音说意图,键盘打精确值。

什么意思?需求描述、功能解释、Bug 复现步骤——这些用语音说,又快又自然。但文件路径、URL、变量名——这些还是键盘敲,语音识别再准也不如手打靠谱。

具体到工具选择:

场景推荐方案理由
中文开发者日常豆包输入法中英混输最强,免费
豆包 PC 版没出来之前讯飞输入法过渡Mac/Win 都有,够用
纯英文指令Claude Code /voice零成本,编程术语优化好
隐私敏感CapsWriter-Offline完全本地,免费,中文优秀
预算充足追求极致Wispr Flow全平台,上下文感知

一个更大的趋势

语音输入只是一个切口。背后的趋势是:AI 编程的瓶颈正在从"AI 能力"转向"人机交互效率"。

2025 年,我们还在讨论 AI 能不能写对代码。2026 年,AI 写代码的能力已经足够好了,反而是"怎么更快地告诉 AI 你要什么"变成了新的效率瓶颈。

GitHub Copilot、Claude Code、Cursor 在过去半年密集上线语音功能,不是巧合。专门为开发者做语音输入的创业公司(Willow Voice、Wispr Flow、Aqua Voice)也在这一年集中冒出来。行业已经达成共识:键盘不是唯一的输入方式了。

下一步可能是什么?我猜是多模态输入——你对着屏幕说"把这个按钮移到左边",AI 能同时理解你的语音和你指的是哪个按钮。这个能力,一些工具已经在做了。

但现在,先把语音输入用起来。它不需要什么高级工具,一个好的输入法就够了。


试试双击 Fn 键说一句话,感受一下语音输入的速度。然后你会明白,为什么键盘在 AI 时代可能不是最优解。