周一上线｜1M 上下文成标配，GPT-5.5 更会干活；Google 拟最高 400 亿美元加码 Anthropic

上周 AI 圈的信息密度确实有点爆炸，好几个重量级更新扎堆出现。

先看模型这边，沉寂 15 个月后，DeepSeek 终于发布了 V4 预览版，而且照例开源。最猛的是，它直接把 1M 上下文做成了标配，量大管饱。OpenAI 那边，比 DeepSeek 早一天发布的 GPT-5.5，主打"更人性化"，在带起一众模型"稳稳接住""懂你所想"的风潮之后，这回 GPT-5.5 不弯不绕，反倒显得清新脱俗。当然，模型的重点还是能力：Agentic Coding、Computer Use 和复杂任务处理，GPT-5.5 较之前版本都有很大提升。

大公司动态这边，Anthropic 虽说上周没发新版模型，但上上周发布的 Opus 4.7 热度还在延续；同时，它和亚马逊、Google 接连加深合作，算力、资金一起安排上，风头无限。

下面，开始一周回顾。

本周酷玩

Flipbook：没有 HTML、没有 CSS，没有按钮，AI 实时绘制的界面

图1.gif

过去，无论一个网页多么精美、酷炫，从结构上看，都是由一个个按钮、文本框、图片等等资源积木搭建而成。现在，Flipbook 想要重新定义网页交互形式，它不再是固定布局，屏幕上的每个像素都由 AI 模型实时生成、流式传输到网页端，让用户看见。它像极了一个可无限放大的画布，打开任何一扇门，你都可以基于当前画面看到新的场景。

就目前而言，Flipbook 更适合做"视觉解释"类场景，比如生成一个结构图、科普图、维修手册之类的交互说明。借助优化过的视频模型，并通过 WebSocket 连接云端 GPU，它可以将画面以 1080p、24fps 的形式流式传到屏幕上。

作者坦承，Flipbook 还是处于早期概念验证 / Demo 阶段，部分演示经过加速或剪辑，但这个新的网页视觉交互方向确实有想象力：未来的软件界面可能不再是固定 UI，而是按你的需求实时长出来。

软硬结合：动动嘴就能让 Codex 写代码

Codex 开放全局的语音输入：

图2.png

网友爆料 ulanzi 发布 AI Coding 语音助手搭档（下图），全向收音麦克风 + 自定义按键，现在软硬结合，Codex / Claude 干活更卖力。

图3.png

周五上线

「周五上线」是一个程序梗：一旦版本上线，我们就要开始祈祷一切如期运行。该模块寓意，所有模型、产品版本更新，大吉大利。

DeepSeek-V4 预览版发布并开源，1M 上下文成为官方服务标配

北京时间 4 月 24 日，沉寂已久的 DeepSeek 全新系列模型 DeepSeek-V4 预览版正式发布，依旧选择开源模型。V4 模型主要亮点为百万级超长上下文，分为 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个版本。

图4.png

其中，V4-Pro 的 Agent 能力有了大幅度提升，可比肩 Claude Opus 4.6、GPT-5.4-xHigh、Gemini-3.1 等主流模型。官方表示，内部反馈 V4 使用体验优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但仍与 Opus 4.6 思考模式存在一定差距；V4-Flash 则在成本和速度上更有优势，简单 Agent 任务表现接近 Pro，但复杂任务仍有差距。

这次 V4 最大的亮点是长上下文。DeepSeek 引入了新的注意力机制，对 token 维度进行压缩，降低了长上下文对算力和显存的压力，也让 1M 上下文从 V4 开始成为官方服务标配。现在，用户可以在官网和 App 体验该版本，官方 API 也已上线，只需把 model 参数改为 deepseek-v4-pro 或 deepseek-v4-flash 即可调用。旧模型名 deepseek-chat 和 deepseek-reasoner 将于 2026 年 7 月 24 日停用。

小彩蛋：DeepSeek-V4-Pro API 限时促销中，截至 2026 年 5 月 5 日，可以用原价 25% 的价钱使用模型：

图5.png

OpenAI 发布 GPT-5.5，重点升级 Agentic Coding、Computer Use 和知识工作

被官方称为"目前最聪明、最直觉化的新一代模型"GPT-5.5 在美东时间 4 月 23 日正式发布。

这次 GPT-5.5 最大的亮点，是它更会干活了，不再只是一个擅长聊天的工具。OpenAI 表示，GPT-5.5 在 Agentic Coding、Computer Use、知识工作和早期科学研究上都有显著的能力提升，尤其适合处理长周期、多步骤的复杂任务。

在 Codex 编程场景中，GPT-5.5 能很好地理解大型代码库结构、调用关系，可定位模糊 bug、制定修复计划、调用工具验证结果，最后将改动写入到周边代码中。

从官方披露的评测看，GPT-5.5 在 Terminal-Bench 2.0 上达到 82.7%，在 SWE-Bench Pro 上达到 58.6%，并且相比 GPT-5.4 使用更少 tokens 完成同类 Codex 任务。OpenAI 还提到，GPT-5.5 在真实服务中的单 token 延迟与 GPT-5.4 基本持平，但能力显著提高。

目前，GPT-5.5 已面向 ChatGPT Plus、Pro、Business、Enterprise 用户以及 Codex 推出；GPT-5.5 Pro 面向 Pro、Business 和 Enterprise 用户推出。

一句话总结：GPT-5.5 的重点不是"更会聊天"，而是更像一个能长期推进任务的 AI 工程同事。

小彩蛋：OpenAI 在 GPT-5.5 发布后，同步推出了一个 Bio Bug Bounty，面向有 AI 红队、安全或生物安全经验的研究者开放申请。

图6.png

Claude Code 承认近期质量下滑，官方发布修复公告

图7.png

据官方称，不少用户反馈 Claude Code 降智。本周，Claude 官方发布修复公告，承认 Claude Code 的体验确实受到了影响，但强调不是底层模型本身退步，而是在 Claude Code / Agent SDK 外层工程链路出了问题。现在，问题已经修复。

图8.png

此外，官方表示已经重置了所有订阅用户的使用限制。后续 Anthropic 会加强内部 dogfooding，并扩大评测集，尤其是针对系统提示词变化，做更细的隔离测试。

Cursor 3 新增 /multitask，支持多 Agent 并行干活

美东时间 4 月 24 日，Cursor 正式推出了新界面里的 /multitask 功能。

图9.gif

以前，你给 Cursor 提多个需求，它会依序排队处理；现在，它可以多线程操作，启动异步 subagents，把任务拆解掉，并行跑需求。

这个功能很适合"多线任务"，一边修 bug，一边补测试，一边改文档，一边检查依赖。对开发者来说，Cursor 正从"一个 AI 程序员"往"一个 AI 小团队"靠近。

随之而来的问题，就变成了：你会不会拆任务、会不会审查 Agent 的产出。

腾讯混元开源 Hy3 preview，主打推理、Agent 和性价比

腾讯混元团队开源了 Hy3 preview。该模型规模为 295B，总激活参数约 21B，定位为具备较强推理和 Agent 能力的高性价比模型。

图10.png

从官方公开信息看，Hy3 preview 重点面向 Coding Agent、推理和搜索等场景，是一个全面、不"偏科"的推理模型。此外，腾讯在官方介绍中表示，相关模型已经用于元宝、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档等产品，并在微信公众号、腾讯新闻、腾讯自选股、和平精英、腾讯客服等多个产品陆续上线中。

图11.png

小彩蛋：本次「随手测测」将采用腾讯混元公示的测试 prompt 来测试相关模型能力。

xAI 推出 Grok 语音 API，补齐"能听会说"的能力

xAI 推出了两项 Grok 语音 API：Speech to Text 和 Text to Speech。

图12.gif

在语音识别转文字部分，Grok 可实时转录、说话人分离、多声道识别。此外，它支持 25 种以上语言。在文字转语音部分，Grok 支持用标签控制声音情绪（如笑、叹气），能识别声音场景（如低语），对文字停顿部分进行语音适配，可调整整体语速和音量。

Kimi K2.6 发布，主打开源 Coding 和长程 Agent 任务

北京时间 4 月 20 日深夜，月之暗面发布了 Kimi K2.6，重点强化代码能力、长程任务执行和 Agent Swarm 多 Agent 协作能力。

图13.png

这次新版的 Kimi K2.6 关键词是能长期干活。官方给出了几个比较夸张的案例：比如模型连续运行 12 小时，调用 4,000 多次工具，在 Mac 上用 Zig 优化 Qwen3.5-0.8B 推理速度，把速度从约 15 tok/s 提升到约 193 tok/s；还用 13 小时重构一个开源金融撮合引擎，修改 4,000 多行代码，把吞吐量大幅拉高。

Qwen 3.6-Max 预览版正式发布，优化 Agent 编程能力

北京时间 4 月 20 日，Qwen 3.6-Max 预览版正式发布。据了解，相比 Qwen3.6-Plus，Qwen3.6-Max-Preview显著提升 Agent 编程能力、以及更强的世界知识和指令遵循、更优的真实场景 Agent 与知识可靠性表现。

图14.jpg

Qwen3.6-Max-Preview 可通过阿里云百炼 API 调用使用，模型名为 qwen3.6-max-preview，用户也可以在 Qwen Studio 体验。

Google Gemma 4 支持可变宽高比和可变分辨率

Google Gemma 团队在美东时间 4 月 24 日表示，Gemma 4 现已支持可变宽高比和可变分辨率。

图15.png

这对多模态模型很实用，因为现实世界中，图片并不总是标准尺寸：截图、海报、表格、手机长图、横版照片，各种尺寸不统一的图片都会混在一起。如果模型只能按照固定的比例来处理图片，容易在裁剪、缩放时丢失信息。

Gemma 4 支持可变宽高比后，就能更自然地处理特别宽，或是特别长的图片；同时，开发者还可以手动设置图像处理的视觉 token 预算，在细节和成本之间做取舍。对 UI 截图理解、文档图片分析、视觉问答这类任务来说，这种能力会更贴近真实使用场景。

开源雷达

Obscura：Rust 编写的 AI Agent 专用无头浏览器

一个叫 Obscura 的开源项目近期受到关注。

它的定位很明确：给 AI Agent 和网页抓取任务用的轻量浏览器引擎。它不是为了替代常用的浏览器，而是为了让 Agent 更快、更省资源地打开网页、执行 JavaScript、抓取网页内容，完成自动化操作而设计的。

Obscura 还提供 stealth 模式，支持指纹随机化、隐藏自动化特征、拦截追踪脚本等能力。

简单说，它不是给人浏览网页的浏览器，而是给 Agent "上网干活"用的。

图16.png

地址：github.com/h4ckf0r0day…

Notchi：跑在苹果笔记本刘海里的 Claude 小精灵

这是一个运行在 MacBook 刘海里的 Claude Code 状态栏。

图17.gif

它是一个支持 MacBook Pro 2021 款及以上机型的 Claude Code 状态栏，会实时响应 Claude Code 的工作状态，包括思考中、执行中、报错和完成等状态。Notchi 会把不同 Claude Code 会话映射成独立的 Claude 小精灵，并通过动画、表情、音效来和你互动。点击 Claude 图标，会展开对话面板，显示会话时长、活动流与 API 用量信息。从此 Claude Code 不再是在终端里哼哧哼哧搬砖的沉默工人，而是住进了 MacBook 刘海里的小精灵。

地址：github.com/sk-ruban/no…

OpenClaw Managed Agents：开源版 Claude Managed Agents

这是一个开源的 Agent 服务框架，目标是做 Claude Managed Agents / ChatGPT Workspace Agents 的开放替代品。

图18.png

简单说，它把 OpenClaw 包成了一个可通过 API 调用的 Agent 平台。它具备 Claude Managed Agent 的四个标准模块：Agent、Environment、Session、Event。用户可创建 Agent，配置模型、系统提示词、工具和 MCP 服务；再开启 Session，把任务发进去，并通过事件流拿到模型回复、工具调用和执行状态。每个活跃 Session 都会跑在独立 Docker 容器里，方便隔离和恢复。

它的一大亮点是，不绑定模型和云服务。OpenClaw Managed Agents 支持 Anthropic、OpenAI、Gemini、DeepSeek、Mistral、xAI、Bedrock、OpenRouter 等多个模型，也可以部署在任何支持 Docker 的服务器上。

地址：github.com/stainlu/ope…

Hermes WebUI：给长期工作的个人 Agent 加一个网页界面

这是一个给 Hermes Agent 用的自托管网页界面。作为可长期运行在服务器上的个人 Agent，Hermes Agent 支持记忆、Skill、定时任务等功能，可接收多平台消息作为输入；现在，Hermes WebUI 则是给这套能力加了一个显示器，让它在浏览器中直观被看到。

Hermes WebUI 的界面是三栏结构：左侧是管理会话，中间主要是聊天，右侧是工作区文件结构。有了这个 UI 界面，模型配置、profile、workspace、token 使用情况也都能在页面端直接看到了。

项目本身很轻量级，用 Python 和 JS 就能跑。

图19.png

地址：github.com/nesquena/he…

DESIGN.md：让 AI 写前端时，不再乱用配色和风格

Google Labs 开源了 DESIGN.md，这是一个给 Coding Agent 用的设计规范格式。

作用简单，它把品牌色、字体、字号、间距、圆角、按钮样式、设计理念等前端实现内容，整理成一个 Markdown 文件，让 Codex、Claude Code、Cursor 这类 AI 编程工具按照约定生成对应前端页面。

以前 AI 写前端，每次都自由发挥，一会儿按钮是蓝的，一会儿背景又变成渐变紫，现在它可以按照我们的约定来生成页面风格和配色了。

DESIGN.md 还提供 CLI 工具，可以快速检查设计规范、对比版本变化，并导出成 Tailwind theme 或设计 token。

name: Heritage
colors:
  primary: "#1A1C1E"
  secondary: "#6C7278"
  tertiary: "#B8422E"
  neutral: "#F7F5F2"
typography:
  h1:
    fontFamily: Public Sans
    fontSize: 3rem
  body-md:
    fontFamily: Public Sans
    fontSize: 1rem
  label-caps:
    fontFamily: Space Grotesk
    fontSize: 0.75rem
rounded:
  sm: 4px
  md: 8px
spacing:
  sm: 8px
  md: 16px
---

## Overview

Architectural Minimalism meets Journalistic Gravitas. The UI evokes a
premium matte finish — a high-end broadsheet or contemporary gallery.

## Colors

The palette is rooted in high-contrast neutrals and a single accent color.

- **Primary (#1A1C1E):** Deep ink for headlines and core text.
- **Secondary (#6C7278):** Sophisticated slate for borders, captions, metadata.
- **Tertiary (#B8422E):** "Boston Clay" — the sole driver for interaction.
- **Neutral (#F7F5F2):** Warm limestone foundation, softer than pure white.