又更新了,而且这次不是小修小补,是真正能让 OpenClaw 更好用、更顺手、也更像一个成熟 AI 助手的一次大升级。
大家好,我是寒山。
如果你前面刚装好 OpenClaw,那这一版会让你明显感觉到两个字:省事。图片生成更方便了,模型选择更清晰了,语音更稳了,浏览器自动化更像“真能干活”,连 Google Meet 也开始深度打通。
今天这篇,就带你一次看懂 OpenClaw v2026.4.24 到底升级了什么,哪些变化最值得第一时间上手。
一次看懂:这次更新值不值得升?
如果你平时主要拿 OpenClaw 做下面这些事:
- 想直接生成图片、改图、合图
- 想用更强的新模型跑任务
- 想让 AI 通过语音连续对话
- 想让浏览器自动化更稳、更准
- 想把 AI 拉进会议场景里真正参与工作
那这一版基本就是冲着你来的。
因为它升级的,不只是“能不能用”,而是“用起来顺不顺、稳不稳、像不像生产力工具”。
升级亮点 1:图片生成能力,终于从“能用”变成“好用”
这次最直观的变化之一,就是图片生成能力全面升级。
首先,通过 Codex OAuth 就能直调 GPT-Image 2,不需要你再单独折腾额外的 Key 配置。对很多新手来说,这一步省掉的不是几分钟,而是一整轮“到底哪里没配对”的排查时间。
其次,OpenClaw 现在还支持 OpenRouter 全系列图片模型。这意味着你在模型选择上不再被单一路线锁死,想切模型、比效果、找更适合自己场景的方案,会灵活很多。
更关键的是,它不再只是“输一句提示词生成一张图”这么简单了。这一版新增了:
- 参考图编辑
- 多图合成
这两个能力一上来,玩法就完全不一样了。以前更像“让 AI 画一张图”,现在更像“拿现有素材继续加工”。不管你是做封面图、人物图、产品示意图,还是想把几张参考图揉成一个新结果,都会顺手不少。
一句话总结:图片能力从单点生成,升级成了更接近真实工作流的图像处理能力。
升级亮点 2:DeepSeek V4 系列上线,模型档位更清楚了
第二个很重要的升级,是 DeepSeek V4 系列正式上线。
这次采用的是双版本并行方案:
- V4 Flash:作为新用户默认版本
- V4 Pro:适合对效果要求更高的用户
这个设计其实很聪明。
很多人第一次上手时,最怕的不是模型少,而是模型太多,不知道该选哪个。现在默认给你一个更轻快、响应更友好的 V4 Flash,先把体验跑顺;而当你开始追求更复杂任务表现时,再切到 V4 Pro,就会自然很多。
除了版本上线,本次还专门优化了:
- 思维链逻辑
- 工具调用流畅度
翻译成人话就是:模型在“想”和“做”之间切换得更顺了。以前有些场景里,AI 明明知道要调用工具,但动作会迟疑、卡顿,或者衔接不够自然;现在这一层的体验被打磨过后,整体会更像一个真正能连续完成任务的 Agent。
升级亮点 3:实时语音能力增强,AI 开始更像“随时能插话的搭子”
如果你比较关注语音交互,这次更新也很有含金量。
OpenClaw 现在的实时语音能力,已经覆盖了三大场景:
- Talk
- Text
- Gemini Live
这说明它不是只做了一个单点语音入口,而是在不同交互链路里都开始认真补齐实时语音体验。
更实用的一点,是它支持了通话中的实时语音循环提问。这类能力一旦做好,使用感会和以前完全不同。过去很多语音助手更像“一问一答”,你说一句,它回一句;现在则更接近持续对话,能在通话过程中不断追问、承接、继续响应。
另外,Gemini Live 的底层驱动稳定性也做了提升。这类更新往往不花哨,但特别重要。因为语音功能最怕的从来不是“少一个按钮”,而是断流、卡顿、接不上话。一旦底层稳定性上来,整个语音体验才真正能进入可用区间。
所以这一版的语音升级,不只是“多了功能”,更是把实时语音从演示能力往实战能力推了一步。
升级亮点 4:浏览器自动化强化,终于更像一个靠谱执行器了
很多人喜欢 OpenClaw,一个核心原因就是它不只是聊天,它真能动手。
而“动手”最常见的场景之一,就是浏览器自动化。
这次浏览器能力的升级,重点有三个:
- 支持 viewport 坐标精准点击
- 操作超时延长到 60 秒
- 无头模式可配置,标签页崩溃可自动恢复
这几个点看起来技术味很重,但其实每一个都非常实用。
先说精准点击。以前浏览器自动化最烦的情况,就是页面元素复杂、位置漂移、可点区域小,AI 明明“知道该点哪”,但就是点不准。现在支持 viewport 坐标级别的精准点击后,很多复杂页面操作会更稳。
再说超时延长到 60 秒。这对慢页面、复杂后台、登录跳转、长加载流程来说很关键。原来可能还没等页面完全准备好,任务就已经超时中断;现在缓冲空间更大,自动化流程会顺很多。
最后是无头模式和崩溃恢复。前者让你更容易按自己的场景选择运行方式,后者则是在“真跑任务”时特别重要的兜底能力。因为只要开始做自动化,最怕的就不是报错,而是报错以后整个流程直接断掉。现在至少在稳定性层面,它明显更像一个可持续工作的执行器了。
升级亮点 5:Google Meet 深度集成,AI 开始真正进会议了
这次最像“场景升级”的,是 Google Meet 深度集成。
它带来的不是一个孤立功能,而是一整套会议场景能力:
- 个人账号一键登录
- 自动会议管理
- 会议中语音提问,AI 实时响应
自动会议管理里面,又包括了几项很实用的能力:
- 自动入会
- 记录导出
- 出勤报告
这意味着 OpenClaw 开始从“会后帮你整理”往“会中就能参与”发展。
以前很多 AI 工具更擅长做摘要、转录、整理纪要,但真正到了会议现场,往往只能旁听。现在如果能在会议中实时接收语音提问并给出 AI 响应,那它在团队协作里的角色就不一样了。
你可以把它理解成:AI 不再只是会议记录员,而是在慢慢变成会议协作者。
这次升级,最适合哪几类人立刻更新?
如果你属于下面几类用户,我会建议你优先升级:
- 经常用 OpenClaw 跑图片任务的人
- 正在尝试更强模型做复杂任务的人
- 想把语音交互真正用起来的人
- 已经在折腾浏览器自动化工作流的人
- 希望把 AI 接进会议流程的人
尤其是后两类,这一版的体感提升通常会比较明显。
如何升级?
终端直接执行:
openclaw update
最后一句
OpenClaw 这次更新最有意思的地方,在于它不是单纯堆功能,而是在把几条关键体验链路一口气补齐:图片、模型、语音、浏览器、会议。
你会感觉这个“小龙虾”,越来越不像一个只能陪你聊天的玩具,而越来越像一个真能下场帮你干活的搭子。
今天的升级速报就到这里,更多 AI 内容,我们下期再讲。