上周 AI 圈的信息密度确实有点爆炸,好几个重量级更新扎堆出现。
先看模型这边,沉寂 15 个月后,DeepSeek 终于发布了 V4 预览版,而且照例开源。最猛的是,它直接把 1M 上下文做成了标配,量大管饱。OpenAI 那边,比 DeepSeek 早一天发布的 GPT-5.5,主打"更人性化",在带起一众模型"稳稳接住""懂你所想"的风潮之后,这回 GPT-5.5 不弯不绕,反倒显得清新脱俗。当然,模型的重点还是能力:Agentic Coding、Computer Use 和复杂任务处理,GPT-5.5 较之前版本都有很大提升。
大公司动态这边,Anthropic 虽说上周没发新版模型,但上上周发布的 Opus 4.7 热度还在延续;同时,它和亚马逊、Google 接连加深合作,算力、资金一起安排上,风头无限。
下面,开始一周回顾。
本周酷玩
Flipbook:没有 HTML、没有 CSS,没有按钮,AI 实时绘制的界面
过去,无论一个网页多么精美、酷炫,从结构上看,都是由一个个按钮、文本框、图片等等资源积木搭建而成。现在,Flipbook 想要重新定义网页交互形式,它不再是固定布局,屏幕上的每个像素都由 AI 模型实时生成、流式传输到网页端,让用户看见。它像极了一个可无限放大的画布,打开任何一扇门,你都可以基于当前画面看到新的场景。
就目前而言,Flipbook 更适合做"视觉解释"类场景,比如生成一个结构图、科普图、维修手册之类的交互说明。借助优化过的视频模型,并通过 WebSocket 连接云端 GPU,它可以将画面以 1080p、24fps 的形式流式传到屏幕上。
作者坦承,Flipbook 还是处于早期概念验证 / Demo 阶段,部分演示经过加速或剪辑,但这个新的网页视觉交互方向确实有想象力:未来的软件界面可能不再是固定 UI,而是按你的需求实时长出来。
软硬结合:动动嘴就能让 Codex 写代码
Codex 开放全局的语音输入:
网友爆料 ulanzi 发布 AI Coding 语音助手搭档(下图),全向收音麦克风 + 自定义按键,现在软硬结合,Codex / Claude 干活更卖力。
周五上线
「周五上线」是一个程序梗:一旦版本上线,我们就要开始祈祷一切如期运行。该模块寓意,所有模型、产品版本更新,大吉大利。
DeepSeek-V4 预览版发布并开源,1M 上下文成为官方服务标配
北京时间 4 月 24 日,沉寂已久的 DeepSeek 全新系列模型 DeepSeek-V4 预览版正式发布,依旧选择开源模型。V4 模型主要亮点为百万级超长上下文,分为 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个版本。
其中,V4-Pro 的 Agent 能力有了大幅度提升,可比肩 Claude Opus 4.6、GPT-5.4-xHigh、Gemini-3.1 等主流模型。官方表示,内部反馈 V4 使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍与 Opus 4.6 思考模式存在一定差距;V4-Flash 则在成本和速度上更有优势,简单 Agent 任务表现接近 Pro,但复杂任务仍有差距。
这次 V4 最大的亮点是长上下文。DeepSeek 引入了新的注意力机制,对 token 维度进行压缩,降低了长上下文对算力和显存的压力,也让 1M 上下文从 V4 开始成为官方服务标配。现在,用户可以在官网和 App 体验该版本,官方 API 也已上线,只需把 model 参数改为 deepseek-v4-pro 或 deepseek-v4-flash 即可调用。旧模型名 deepseek-chat 和 deepseek-reasoner 将于 2026 年 7 月 24 日停用。
小彩蛋:DeepSeek-V4-Pro API 限时促销中,截至 2026 年 5 月 5 日,可以用原价 25% 的价钱使用模型:
OpenAI 发布 GPT-5.5,重点升级 Agentic Coding、Computer Use 和知识工作
被官方称为"目前最聪明、最直觉化的新一代模型"GPT-5.5 在美东时间 4 月 23 日正式发布。
这次 GPT-5.5 最大的亮点,是它更会干活了,不再只是一个擅长聊天的工具。OpenAI 表示,GPT-5.5 在 Agentic Coding、Computer Use、知识工作和早期科学研究上都有显著的能力提升,尤其适合处理长周期、多步骤的复杂任务。
在 Codex 编程场景中,GPT-5.5 能很好地理解大型代码库结构、调用关系,可定位模糊 bug、制定修复计划、调用工具验证结果,最后将改动写入到周边代码中。
从官方披露的评测看,GPT-5.5 在 Terminal-Bench 2.0 上达到 82.7%,在 SWE-Bench Pro 上达到 58.6%,并且相比 GPT-5.4 使用更少 tokens 完成同类 Codex 任务。OpenAI 还提到,GPT-5.5 在真实服务中的单 token 延迟与 GPT-5.4 基本持平,但能力显著提高。
目前,GPT-5.5 已面向 ChatGPT Plus、Pro、Business、Enterprise 用户以及 Codex 推出;GPT-5.5 Pro 面向 Pro、Business 和 Enterprise 用户推出。
一句话总结:GPT-5.5 的重点不是"更会聊天",而是更像一个能长期推进任务的 AI 工程同事。
小彩蛋:OpenAI 在 GPT-5.5 发布后,同步推出了一个 Bio Bug Bounty,面向有 AI 红队、安全或生物安全经验的研究者开放申请。
Claude Code 承认近期质量下滑,官方发布修复公告
据官方称,不少用户反馈 Claude Code 降智。本周,Claude 官方发布修复公告,承认 Claude Code 的体验确实受到了影响,但强调不是底层模型本身退步,而是在 Claude Code / Agent SDK 外层工程链路出了问题。现在,问题已经修复。
此外,官方表示已经重置了所有订阅用户的使用限制。后续 Anthropic 会加强内部 dogfooding,并扩大评测集,尤其是针对系统提示词变化,做更细的隔离测试。
Cursor 3 新增 /multitask,支持多 Agent 并行干活
美东时间 4 月 24 日,Cursor 正式推出了新界面里的 /multitask 功能。
以前,你给 Cursor 提多个需求,它会依序排队处理;现在,它可以多线程操作,启动异步 subagents,把任务拆解掉,并行跑需求。
这个功能很适合"多线任务",一边修 bug,一边补测试,一边改文档,一边检查依赖。对开发者来说,Cursor 正从"一个 AI 程序员"往"一个 AI 小团队"靠近。
随之而来的问题,就变成了:你会不会拆任务、会不会审查 Agent 的产出。
腾讯混元开源 Hy3 preview,主打推理、Agent 和性价比
腾讯混元团队开源了 Hy3 preview。该模型规模为 295B,总激活参数约 21B,定位为具备较强推理和 Agent 能力的高性价比模型。
从官方公开信息看,Hy3 preview 重点面向 Coding Agent、推理和搜索等场景,是一个全面、不"偏科"的推理模型。此外,腾讯在官方介绍中表示,相关模型已经用于元宝、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档等产品,并在微信公众号、腾讯新闻、腾讯自选股、和平精英、腾讯客服等多个产品陆续上线中。
小彩蛋:本次「随手测测」将采用腾讯混元公示的测试 prompt 来测试相关模型能力。
xAI 推出 Grok 语音 API,补齐"能听会说"的能力
xAI 推出了两项 Grok 语音 API:Speech to Text 和 Text to Speech。
在语音识别转文字部分,Grok 可实时转录、说话人分离、多声道识别。此外,它支持 25 种以上语言。在文字转语音部分,Grok 支持用标签控制声音情绪(如笑、叹气),能识别声音场景(如低语),对文字停顿部分进行语音适配,可调整整体语速和音量。
Kimi K2.6 发布,主打开源 Coding 和长程 Agent 任务
北京时间 4 月 20 日深夜,月之暗面发布了 Kimi K2.6,重点强化代码能力、长程任务执行和 Agent Swarm 多 Agent 协作能力。
这次新版的 Kimi K2.6 关键词是能长期干活。官方给出了几个比较夸张的案例:比如模型连续运行 12 小时,调用 4,000 多次工具,在 Mac 上用 Zig 优化 Qwen3.5-0.8B 推理速度,把速度从约 15 tok/s 提升到约 193 tok/s;还用 13 小时重构一个开源金融撮合引擎,修改 4,000 多行代码,把吞吐量大幅拉高。
Qwen 3.6-Max 预览版正式发布,优化 Agent 编程能力
北京时间 4 月 20 日,Qwen 3.6-Max 预览版正式发布。据了解,相比 Qwen3.6-Plus,Qwen3.6-Max-Preview显著提升 Agent 编程能力、以及更强的世界知识和指令遵循、更优的真实场景 Agent 与知识可靠性表现。
Qwen3.6-Max-Preview 可通过阿里云百炼 API 调用使用,模型名为 qwen3.6-max-preview,用户也可以在 Qwen Studio 体验。
Google Gemma 4 支持可变宽高比和可变分辨率
Google Gemma 团队在美东时间 4 月 24 日表示,Gemma 4 现已支持可变宽高比和可变分辨率。
这对多模态模型很实用,因为现实世界中,图片并不总是标准尺寸:截图、海报、表格、手机长图、横版照片,各种尺寸不统一的图片都会混在一起。如果模型只能按照固定的比例来处理图片,容易在裁剪、缩放时丢失信息。
Gemma 4 支持可变宽高比后,就能更自然地处理特别宽,或是特别长的图片;同时,开发者还可以手动设置图像处理的视觉 token 预算,在细节和成本之间做取舍。对 UI 截图理解、文档图片分析、视觉问答这类任务来说,这种能力会更贴近真实使用场景。
开源雷达
Obscura:Rust 编写的 AI Agent 专用无头浏览器
一个叫 Obscura 的开源项目近期受到关注。
它的定位很明确:给 AI Agent 和网页抓取任务用的轻量浏览器引擎。它不是为了替代常用的浏览器,而是为了让 Agent 更快、更省资源地打开网页、执行 JavaScript、抓取网页内容,完成自动化操作而设计的。
Obscura 还提供 stealth 模式,支持指纹随机化、隐藏自动化特征、拦截追踪脚本等能力。
简单说,它不是给人浏览网页的浏览器,而是给 Agent "上网干活"用的。
Notchi:跑在苹果笔记本刘海里的 Claude 小精灵
这是一个运行在 MacBook 刘海里的 Claude Code 状态栏。
它是一个支持 MacBook Pro 2021 款及以上机型的 Claude Code 状态栏,会实时响应 Claude Code 的工作状态,包括思考中、执行中、报错和完成等状态。Notchi 会把不同 Claude Code 会话映射成独立的 Claude 小精灵,并通过动画、表情、音效来和你互动。点击 Claude 图标,会展开对话面板,显示会话时长、活动流与 API 用量信息。从此 Claude Code 不再是在终端里哼哧哼哧搬砖的沉默工人,而是住进了 MacBook 刘海里的小精灵。
OpenClaw Managed Agents:开源版 Claude Managed Agents
这是一个开源的 Agent 服务框架,目标是做 Claude Managed Agents / ChatGPT Workspace Agents 的开放替代品。
简单说,它把 OpenClaw 包成了一个可通过 API 调用的 Agent 平台。它具备 Claude Managed Agent 的四个标准模块:Agent、Environment、Session、Event。用户可创建 Agent,配置模型、系统提示词、工具和 MCP 服务;再开启 Session,把任务发进去,并通过事件流拿到模型回复、工具调用和执行状态。每个活跃 Session 都会跑在独立 Docker 容器里,方便隔离和恢复。
它的一大亮点是,不绑定模型和云服务。OpenClaw Managed Agents 支持 Anthropic、OpenAI、Gemini、DeepSeek、Mistral、xAI、Bedrock、OpenRouter 等多个模型,也可以部署在任何支持 Docker 的服务器上。
Hermes WebUI:给长期工作的个人 Agent 加一个网页界面
这是一个给 Hermes Agent 用的自托管网页界面。作为可长期运行在服务器上的个人 Agent,Hermes Agent 支持记忆、Skill、定时任务等功能,可接收多平台消息作为输入;现在,Hermes WebUI 则是给这套能力加了一个显示器,让它在浏览器中直观被看到。
Hermes WebUI 的界面是三栏结构:左侧是管理会话,中间主要是聊天,右侧是工作区文件结构。有了这个 UI 界面,模型配置、profile、workspace、token 使用情况也都能在页面端直接看到了。
项目本身很轻量级,用 Python 和 JS 就能跑。
DESIGN.md:让 AI 写前端时,不再乱用配色和风格
Google Labs 开源了 DESIGN.md,这是一个给 Coding Agent 用的设计规范格式。
作用简单,它把品牌色、字体、字号、间距、圆角、按钮样式、设计理念等前端实现内容,整理成一个 Markdown 文件,让 Codex、Claude Code、Cursor 这类 AI 编程工具按照约定生成对应前端页面。
以前 AI 写前端,每次都自由发挥,一会儿按钮是蓝的,一会儿背景又变成渐变紫,现在它可以按照我们的约定来生成页面风格和配色了。
DESIGN.md 还提供 CLI 工具,可以快速检查设计规范、对比版本变化,并导出成 Tailwind theme 或设计 token。
name: Heritage
colors:
primary: "#1A1C1E"
secondary: "#6C7278"
tertiary: "#B8422E"
neutral: "#F7F5F2"
typography:
h1:
fontFamily: Public Sans
fontSize: 3rem
body-md:
fontFamily: Public Sans
fontSize: 1rem
label-caps:
fontFamily: Space Grotesk
fontSize: 0.75rem
rounded:
sm: 4px
md: 8px
spacing:
sm: 8px
md: 16px
---
## Overview
Architectural Minimalism meets Journalistic Gravitas. The UI evokes a
premium matte finish — a high-end broadsheet or contemporary gallery.
## Colors
The palette is rooted in high-contrast neutrals and a single accent color.
- **Primary (#1A1C1E):** Deep ink for headlines and core text.
- **Secondary (#6C7278):** Sophisticated slate for borders, captions, metadata.
- **Tertiary (#B8422E):** "Boston Clay" — the sole driver for interaction.
- **Neutral (#F7F5F2):** Warm limestone foundation, softer than pure white.
Browser Harness:让 AI 边上网、边工作的极简浏览器底座
Browser Use 团队开源了 Browser Harness,一个极简的浏览器控制框架。它直接基于 Chrome DevTools Protocol,让 LLM 可连接真实浏览器,完成网页操作任务。
它的有趣之处在于"self-healing"。如果 Agent 在执行任务时,发现现有工具不够用,比如缺少上传文件、点击某类元素、处理某个页面流程的函数,它可以自己修改 helpers.py,把缺的能力补上,然后继续执行任务。
项目非常轻量级,核心代码是几百行 Python。它不想提前写死网页任务规则,而是把更多自由度交给模型:遇到问题,就让 Agent 自己补工具、记流程、继续干。
Agent Skills:让 AI 编程助手学会"可复用技能"
Google Gemini 团队的 Addy Osmani 开源了一个面向 AI Coding 的技能包。它的核心思路很简单,让 AI 别一上来就写代码。
先明确需求,再拆解任务,挨个实现子任务,最后测试、审查、上线。
这个项目提供了 20 个 Skill,覆盖需求定义、任务拆解、增量开发、测试、调试、代码审查、安全、性能、CI/CD 和发布等环节。
大厂动静
SpaceX 拟 600 亿美元收购 Cursor
有报道称,SpaceX 获得了在今年晚些时候以 600 亿美元收购 Cursor 的权利,即便最终不收购,也会选择支付 100 亿美元推进双方深度合作,共同打造面向编程和知识工作的 AI 系统。
苹果接班人话题升温,John Ternus 再次站到聚光灯下
苹果硬件工程负责人 John Ternus 被传将接替库克,成为下一代苹果公司领导人。以下为其 LinkedIn 页面:
John Ternus 作为 Mac 转向自研芯片过程中的关键人物之一,长期参与苹果硬件产品线管理。自 2001 年加入苹果,他负责过 iPhone、Mac、iPad、Apple Watch、AirPods、Vision Pro 等几乎所有核心硬件产品线。
Google 拟最高 400 亿美元投资 Anthropic
据 Reuters 报道,Google 母公司 Alphabet 将向 Anthropic 最高投资 400 亿美元,进一步加深与这家 AI 创业公司的合作。
Anthropic 表示,Google 已承诺先按 3,500 亿美元估值,向其投入 100 亿美元现金,用于支持其计算能力扩张;如果 Anthropic 达成相关业绩目标,Google 还将追加 300 亿美元投资。
Anthropic 与 Amazon 扩大合作,未来十年投入超 1,000 亿美元买算力
Anthropic 和 Amazon 宣布扩大合作,签署了一项新的算力协议。
根据协议,Anthropic 将在未来十年向 AWS 技术投入超过 1,000 亿美元,来获得最高 5GW 的算力容量,用于训练和部署 Claude。这次合作覆盖 Amazon 自研芯片 Graviton、Trainium2 到 Trainium4。
除了算力合作之外,Amazon 还将继续加码投资 Anthropic:本次新增投资 50 亿美元,未来最多还可追加 200 亿美元。此前,Amazon 已经向 Anthropic 投资 80 亿美元。
FILCO 机械键盘成为过去式,厂商倒闭黯然离场
陪伴了一代代程序员的老牌机械键盘 FILCO 本周宣布终止全部经营活动。如果你手头还持有经典圣手系列,那它可能会成为绝版。
黑话梗图
ChatGPT 示范图
上图由 ChatGPT 官方给出,随后网友基于此生成了大量自己的"Stay curious"图。
以下为网友制作的梗图,希望你能轻松愉悦地度过这一周: