还记得我之前写过一篇《Vibe Easily Everywhere》吗?当时为了在地铁上用手机给 Claude Code 下指令,我专门装了语音输入法——因为在手机小屏幕上 Vibe 实在太痛苦了,语音输入成了"移动端 Vibe Coding"的灵魂。
那篇文章发出去之后,评论区好多人问:电脑上能不能也用语音?
说实话,能。我后来在桌面端用上了 Typeless,一个专门给开发者设计的语音输入工具。体验确实不错——说话的速度大概是打字的 3-4 倍,而且它能识别技术术语,说"帮我重构 getUserById 这个函数",出来的文字八九不离十。我连续用了几周,统计了一下,平均语速 158 词/分钟,比我打字快了将近一倍。
但还是有个别扭的地方:它毕竟是个外挂。你得先开 Typeless,再切到终端,按快捷键触发录音,说完了文字出现在输入框里,再按回车发送。步骤不多,但每次都要"跳出去再跳回来",总感觉不够丝滑。
然后昨天,OpenAI 的 Codex CLI 推了 0.105.0。
我一看更新日志,愣了——按住空格键,直接语音输入,松开自动发送。原生支持,不用装任何外挂。
就这一个功能,我觉得值得单独写一篇。
语音输入:从"社区呼声最高"到"终于来了"
先说说背景。Codex CLI 的 GitHub 仓库里,有一个编号 #3000 的 Issue,标题就叫"Voice dictation / microphone input"。这个 Issue 拿到了 71 个大拇指,17 条评论,是社区呼声最高的功能请求之一。
评论区里能看到大家的折腾史:有人在用 Superwhisper(一个 Mac 端的语音输入工具),觉得"识别效果不错,但只能 Mac 用";有人吐槽 Windows/WSL 用户被彻底晾在一边;还有人说"VSCode 里的语音输入只能在编辑器文件里用,Codex 面板里根本没法说话"。
0.105.0 一步到位,把这些问题全解决了。
开启方式也很简单,在 ~/.codex/config.toml 里加两行:
[features]
voice_transcription = true
保存后重启 Codex CLI 就行。
开启之后,操作方式简单到离谱:按住空格键 → 说话 → 松开 → 自动转文字发送给 AI
不需要装插件,不需要配第三方工具,不区分 Mac/Windows/Linux,Codex 原生支持。
我实际体验了一下午,说几个真实感受:
技术术语识别比预想的好。说"帮我检查一下 src/api/auth.ts 里的 validateToken 函数",路径和函数名基本都能准确识别。这一点比通用语音输入法强不少——毕竟 Codex 是专门给开发者做的,语音模型大概率针对编程场景做过优化。
说话比打字更容易"想清楚"。这是我没预料到的。打字的时候,你会下意识地简化表达,因为敲键盘有成本。但说话的时候,你更容易把完整的上下文描述出来——"这个函数现在的问题是,当用户没有传 token 的时候,它会直接 crash,而不是返回一个 401 错误"——这种长句子说出来很自然,但要打字就觉得太长了,往往会缩成"validateToken 没处理空 token"。
结果就是,语音输入的时候,AI 拿到的上下文更丰富,给出的回答也更准确。
但中英文混合场景还有点毛糙。如果你一句话里又有中文描述又有英文函数名,偶尔会出现识别断档。比如"帮我把 getUserList 的返回值改成 pagination 格式",有时候 getUserList 会被吞掉或者识别成别的东西。不影响大局,但期待后续版本优化。
场景确实有限制。安静的家里用、戴耳机用都很爽。但开放式办公室里对着屏幕说"帮我写一个删除用户的接口"……你可以想象一下同事的表情。
终端终于好看了:代码高亮 + 主题切换
如果你用过 Codex CLI 的老版本,可能对它的终端界面有一个吐槽:代码块看起来跟普通文本没什么区别,一眼扫过去分不清哪段是代码、哪段是解释。
0.105.0 终于解决了这个问题。
现在,Codex 的终端界面(TUI)支持语法高亮了——代码块、diff 对比都有颜色区分,一眼就能看出改了什么。
更贴心的是,它还加了一个 /theme 命令。输入之后会弹出一个主题选择器,你可以实时预览不同配色方案,挑一个顺眼的保存下来。浅色终端、深色终端都有对应的配色优化。
用过 Claude Code 的朋友可能会觉得眼熟——没错,Claude Code 早就有语法高亮和 /theme 主题切换了,配色方案也是深色浅色随时调。Codex 这次算是补上了这块短板,而且体验做得不错,主题选择器支持实时预览,切换起来比 Claude Code 还直观一些。
别小看这个更新。终端工具的使用体验,很大程度上取决于"信息密度能不能快速消化"。代码高亮和主题切换看起来是视觉优化,实际上直接影响你的工作效率——你不需要再逐行去"读"代码,扫一眼颜色就知道大概改了什么。
多智能体:一个人同时指挥一群 AI 干活
这个功能其实从 0.102.0 就开始有了,但之前一直没跟大家好好聊过。趁着 0.105.0 又做了一波升级,今天一次说清楚。
什么是多智能体?
简单说,就是你可以同时启动多个 AI,每个 AI 独立工作,互不干扰,最后把结果汇总给你。
以前用 Codex,你跟一个 AI 聊天,提一个需求,它做完了你再提下一个。串行的,一个一个来。
现在开了多智能体,你可以同时派出好几个 AI:一个写代码,一个跑测试,一个审查安全漏洞——三件事并行跑,最后汇总。
三个内置角色
Codex 预设了三种 Agent 角色,开箱即用:
- default:通用型,处理日常编码任务,是默认主力
- worker:执行型,专注写代码,效率优先
- explorer:探索型,只读权限,负责快速扫描和分析代码库
你也可以自定义角色。比如搞一个专门做安全审查的 reviewer:
[agents.reviewer]
description = "专注代码安全性、正确性和测试覆盖率审查。"
model = "gpt-5.3-codex"
sandbox_mode = "read-only"
启用方式
在 ~/.codex/config.toml 里加一行:
[features]
multi_agent = true
或者更快的方式——在 Codex CLI 里直接输入 /experimental 切换开关。
0.105.0 的升级:从"能用"到"好用"
之前的多智能体虽然能跑起来,但用着还是有些糙。0.105.0 做了几个关键改进:
CSV 批量派任务:新增了 spawn_agents_on_csv 功能。你可以准备一个 CSV 文件,每一行是一个任务,Codex 会自动给每个任务分配一个 Agent,批量并行执行。还内置了进度条和预计完成时间(ETA)。
举个例子:你有 50 个文件需要统一重构命名规范,以前你得一个个提需求。现在把文件列表扔进 CSV,Codex 自动开 50 个 Agent 同时干。
Agent 昵称:每个子 Agent 现在可以起昵称了。当你同时跑七八个 Agent 的时候,"重构-Auth 模块"比"Agent-7"好认多了。
子线程审批可见:以前子 Agent 需要你审批权限的时候,提示信息藏得挺深。现在审批请求会直接浮上来,你一眼就能看到哪个 Agent 在等你"批条子"。
这些改进单个看都不大,但加在一起,体验提升很明显。
和 Claude Code Sub Agent 简单对比
还记得之前那篇《Claude Code Sub Agent 完全指南》吗?当时我们详细聊过 Claude Code 怎么用 Sub Agent 搞"一个人指挥一群 AI"——你在 .claude/agents/ 目录下用 Markdown 文件定义不同角色(代码审查专家、调试高手、数据分析师),每个 Sub Agent 有独立的 200k token 上下文窗口,还能精确控制工具权限(比如审查代理只给只读权限)。Claude 会根据任务自动判断派哪个 Sub Agent 出马,你也可以手动指定。
Codex 的多智能体思路类似,但配置方式和侧重点不太一样:
| 维度 | Claude Code Sub Agent | Codex Multi-Agent |
|---|---|---|
| 配置方式 | Markdown 文件(.claude/agents/xxx.md) | TOML 配置文件(config.toml) |
| 内置角色 | Explore、Plan、Generic 三个 | default、worker、explorer 三个 |
| 自定义角色 | ✅ Markdown + YAML 定义 | ✅ TOML 定义 |
| 触发方式 | Claude 自动判断 + 手动指定 | 用户手动派发 |
| 批量任务 | 手动指定并行启动多个 | CSV 批量 + 进度条 + ETA |
| 权限控制 | 精细到每个工具(Read/Write/Bash) | 沙箱模式(read-only 等) |
| 模型选择 | 每个 Agent 可用不同模型 | 每个 Agent 可用不同模型 |
两边的核心能力其实差不多——都支持并行、独立上下文、自定义角色。但细节上各有侧重:
Claude Code 的 Sub Agent 在权限精细度上更强,你可以给审查代理只开 Read 和 Grep,写代码的代理才给 Write 和 Edit,甚至能用 Hooks 做条件拦截(比如数据库代理只允许 SELECT)。而且 Claude 会自动判断什么时候该派 Sub Agent,你不用每次手动安排。
Codex 的多智能体在批量任务上更顺手,CSV 一扔、进度条一看、ETA 一算,50 个文件同时重构的场景它目前做得更丝滑。
一句话总结:终端 AI 编程助手都在从"一个 AI 帮你干"走向"一群 AI 帮你干",只是路径不同。
几个实用的小改进
除了上面的重头戏,0.105.0 还有几个值得说的:
/copy 命令:一键复制 AI 最新的回复内容。以前你得手动选中、复制,现在直接 /copy,粘贴到哪儿都行。
/clear 和 Ctrl-L:清屏但不丢上下文。以前清屏会把整个对话清掉,现在只清界面显示,对话历史还在。如果你想彻底重新开始,/clear 也支持开启全新聊天。
审批控制更灵活:Codex 现在可以针对某个命令请求额外的沙箱权限,而不是要么全开要么全关。你还可以设置"自动拒绝"某些类型的审批请求,比如永远不允许删除操作,但允许读写文件。
Linux 沙箱修复:之前在 Linux 上跑 Codex,有些需要 /dev 设备节点的工具会报错(比如需要随机数的加密工具)。0.105.0 给沙箱加了一个最小化的 /dev 文件系统,这个问题终于解决了。
Codex 近期更新速览
0.105.0 不是孤立的一个版本。Codex CLI 最近几个版本的迭代节奏非常快,基本每周都有新东西:
- 0.100.0(2 月 12 日):Agent Memory 上线——AI 可以跨会话记住关键信息,配合 /m_update、/m_drop 管理记忆
- 0.102.0(2 月 14 日):多智能体正式上线,内置 default/worker/explorer 三个角色
- 0.103.0(2 月 17 日):Git 提交自动带上 Codex 协作标注,代码归因更清晰
- 0.104.0(2 月 18 日):WebSocket 代理支持,线程归档通知
- 0.105.0(2 月 25 日):语音输入、代码高亮、多智能体升级(也就是今天这篇)
两周内五个版本,GitHub 上 61900 多颗星,380 多个贡献者——这个项目确实在认真卷。
怎么升级?
一行命令搞定:
npm i -g @openai/codex
装好后运行 codex,用 ChatGPT 账号登录就能用。默认使用的模型是 GPT-5.3-Codex。
GitHub 仓库:github.com/openai/code…
官方文档:developers.openai.com/codex/cli
写在最后
从最早在手机上用讯飞/豆包语音输入法给 Claude Code 下指令,到后来在桌面端装 Typeless 提速,再到现在 Codex 原生支持语音输入——"用嘴写代码"这件事,正在从一个 hack 式的偏方,变成 AI 编程工具的标配功能。
0.105.0 不是一个翻天覆地的大版本,但它做的事情很对路:语音输入降低了表达需求的门槛,代码高亮提升了信息消化的效率,多智能体让批量任务不再是痛点。
这些都不是"从 0 到 1"的创新,而是"从能用到好用"的进化。
而这种进化,往往才是真正让你用了就回不去的东西。
尤其是语音输入——试过一次之后,我现在回到 Claude Code 反而有点不习惯了,下意识就想按空格说话。希望 Anthropic 也赶紧跟上吧。
🔗 往期推荐:
飞书社群开源知识库:my.feishu.cn/wiki/PFJswU…
今天的文章就到这里啦,如果觉得不错,可以点个赞、在看、转发,三连支持我~