今天AI编程圈同时爆了三个更新,密集到有点消化不过来。
先是xAI宣布推出Grok语音转文本和文本转语音API,支持高保真、低延迟的语音交互能力,开发者可以把流畅的语音对话体验集成到应用中。接着谷歌正式推出原生macOS版Gemini桌面应用,支持全局快捷键唤起和屏幕内容实时分享分析。而最大的炸弹来自OpenAI——Codex完成大规模更新,能直接操作你的Mac电脑了。
简单来说,Codex现在能用自己的光标操控桌面应用,模拟点击和输入来执行任务。同时还新增了90多个插件、内置浏览器直接指定网页修改、支持多智能体并行,以及用GPT Image 1.5在开发流程中直接生成图像。更关键的是Codex已经开源,开发者可以自由构建和定制。
加上此前的Claude Code新增Routines云端自动化,支持定时/事件触发执行,跑在Anthropic自己的服务器上,关机睡觉也能干活,以及Grok 4.3测试版已开放、1T旗舰模型即将完成初步训练,AI编程工具已经形成完整的分工梯队:Codex负责“动手”操作桌面,Claude负责“值班”云端值守,Gemini负责“融进来”整合生态,Grok负责“听得懂”语音交互。
工具越来越强,但每次给ChatGPT、Claude、Grok、Gemini续费都要折腾海外支付——信用卡被拒、PayPal风控,麻烦得很。我现在都在 gpt68、com站点 直接给这些主流AI工具充会员,不用反复折腾支付方式。更多AI工具的组合玩法,我也会在公众号 「AI效率开挂局」 持续更新。