那一段 Antigravity 2.0 的 Demo,我看了两遍。
不是因为信息量大没看懂。是因为它展示的东西,跟我过去十年理解的那个叫做"编程"的工作,完全不一样了。
台上的工程师打开 Antigravity 桌面端,描述了一个需求:从零构建一个可以跑起来的操作系统。然后他没有写一行代码。93 个 AI Agent 同时启动,分工——写内核的、搭文件系统的、处理驱动层的——彼此对齐接口,互相验证边界条件。整个过程消耗了 26 亿个 token,最终产出了一个能启动的 OS。API 费用不到 1000 美元。
那个工程师在整个演示里做的事,就是描述意图、观察进度、验收结果。
当 Google 把"不写代码"当作 Keynote 高光时刻来展示时,信号已经很清楚了。编程的定义在被改写。问题是,你准备好管理 Agent 了吗?
一、I/O 2026 到底发了什么
如果你只看标题,今年的 I/O 看起来就是又发了一堆模型。但把发布连起来看,Google 这次交出来的东西有三层。
底层:Gemini 3.5 Flash,给 Agent 做的模型
Pichai 开场扔出的第一张牌就是 3.5 Flash。定位不是通用对话模型——是"面向复杂智能体任务、长工作流和现实世界开发者场景"的 Agent 底座。
几个关键数字:
- 输出速度是其他前沿模型的 4 倍,在 Antigravity 内置优化场景下可以到 12 倍,质量不降
- 价格不到同档模型的一半。Google 自己测算,头部企业把 80% 负载迁过来,一年能省超 10 亿美元
- 在 GDPval(衡量"有真实经济价值的任务")上表现突出,几乎所有基准都超过了上一代 Gemini 3.1 Pro
为什么速度是这件事的核心?Agent 的工作方式和聊天不一样。你对着 ChatGPT 问一句话等 3 秒,完全 ok。但 93 个 Agent 互相调用、等反馈、递归修正——每一轮都要等的话,不可用时间是成倍往上翻的。4 倍速度,让 Agent 从"能跑"变成了"能干活"。
背后撑着的是一套新基础设施:第八代 TPU 做了训练和推理的芯片分离(TPU 8T 训、TPU 8I 推)。Google 内部的 token 日处理量从 3 月的 5000 亿涨到了现在的超 3 万亿,隔几周翻一倍。Pichai 在台上说,2026 年 AI 基础设施资本支出预计 1800 到 1900 亿美元——2022 年的 6 倍。
这不是"加大力度"的语气。这是"梭哈"的语气。
中间层:Antigravity 2.0,从编程工具变成多 Agent 编排平台
Antigravity 上次在 I/O 亮相的时候,大家还把它和 Copilot 放一起比——"又一个 AI 编程助手"。这次 2.0 出来,没人再这么比了。
Google 自己说它是"毫不掩饰地以智能体为先"。这是一个多 Agent 编排平台,分三层:
- 独立桌面 App,可以同时编排多个 Agent(一个写代码、一个生成素材、一个规划架构)
- Antigravity CLI,命令行版本
- Antigravity SDK,让程序直接访问驱动 Google 自家产品的同一套 Agent harness,跟 Gemini 模型协同优化
三个产品的核心能力是同一个:把"我想做什么"翻译成"谁来做、怎么做、怎么验证"。这不是代码补全的升级。这是在改角色的定义。
安全领域也被波及了。Google 发了一个叫 CodeMender 的独立 Agent,用 Gemini 的高级推理能力自动发现并修复代码漏洞。不是"提示这里有漏洞",是直接下笔补。传统安全审计里人工打补丁的环节,被接管了。
上层:Spark,让普通人第一次见到什么是"AI 代理"
如果 3.5 Flash + Antigravity 是给开发者准备的,那 Spark 是给所有人的。
Spark 是一个 7×24 小时跑在 Google Cloud 虚拟机上的个人 AI 助手。你把笔记本合上、手机关机,它还在后台干活。它可以跨 Gmail、Docs、Sheets、Slides 拉数据,自动汇总邮件回复、生成状态报告、向未回复的人发跟进提醒。
Keynote 上演示了一个场景:策划一场街区派对。Spark 自动读取所有回复邮件、追踪每个人带了什么、向没回复的邻居发跟进、在 Sheets 创建实时追踪表、从 Drive 抓资料生成 Slides 宣传册。从头到尾,用户没有单独打开任何一个 App。
还有 Information Agents——你可以在搜索里创建 24/7 后台监控 Agent,自动追踪行业动态,信息变化时主动推给你。搜索从"你去查东西"变成了"Agent 替你盯东西"。
Android 这边也有新入口:Android Halo,手机上实时展示 AI Agent 的任务进度。再加上 XR 眼镜侧的 Agent(戴着眼镜导航、自动打开 DoorDash 找到你常点的饮品、你只需要最终批准下单),Google 正在把 Agent 从"你用时它才在"变成"它一直都在"。
二、开发者角色正在经历什么
上面这些,如果停留在"好厉害的新工具"这一层,就漏掉了真正重要的东西。
你从"写代码的人"变成了"管代码的人"
1990 年代,编程经历过一次类似的范式转移——从汇编到高级语言。在那之前,"程序员"是手动管理内存、直接操作寄存器的人。C 语言刚出来的时候,很多老派程序员觉得"这是玩具"。历史证明,抽象不是削弱能力,是放大能力:你能用同样的时间造更大的东西。
现在的事是一样的。只不过这次被抽象掉的不是机器指令,是实现细节本身。
Antigravity 2.0 展示的场景里,工程师的角色不是消失了,是上移了一整个层次——从"控制代码怎么写"变成了"决定什么代码值得写,以及怎么验证它写对了"。
这不是在吓你。Google 那个团队自己显然就是在 Agent-first 模式下工作。Keynote 上公布的数据,Google 内部 token 日处理量隔几周翻一倍。如果 Google 自己的工程师都在大量用 Agent 工作,你猜他们现在招人会更看重"写代码快",还是"会编排 Agent"?
四条路,你在哪条上
说实话,不是每个人都会变成 Agent 管理者。从目前的信号看,大概会有四种分化。
Agent Operator——最像现在的全栈。 你把日常任务拆成 Agent 可以独立执行的子任务,用自然语言定义意图加约束加验收标准,让多个 Agent 并行工作,你负责集成和验证。核心能力从"写得快不快"变成"描述得准不准、验证得全不全"。
架构决策者——价值往决策端集中。 当实现成本往零趋近,写代码的速度差距被抹平,剩下来的差异是你知道该做什么、不该做什么。系统架构、技术选型、API 设计的判断力,这些东西 Agent 基于已有模式推不出来,价值反而被放大了。
产品端到端 Owner——你一个人就是一个团队。 Antigravity 那个 Demo 里,从零构建操作系统,本质上就是一个人加一群 Agent 完成了一个完整产品。你能一个人管 93 个 Agent 做出产品,那你既是 Developer、也是 PM、也是 Architect。传统分工的边界会变模糊。
被淘汰者——拒绝升级认知。 第一批从汇编到高级语言时抱着寄存器不放的人,有些转型了,有些职业路径就收窄了。Agent 时代不会有任何不同的待遇。它只是把你"愿不愿意重新定义自己的工作"这个问题,往前拉了几步。
HN 上吵成两派,但没人否认一个事实
Google I/O 之后,Hacker News 上的讨论挺有意思。
一派说这太酷了,终于不用写 CRUD 了。他们看到的是解放——把重复性编码丢给 Agent,自己只做真正有创造力的架构和产品决策。
另一派说,如果 93 个 Agent 可以做一个 OS,我的工作还剩什么。他们看到的是威胁——当工具开始做决策的时候,操作工的价值在哪。
两种反应都有道理。但有一件事两边都没否认:写代码不会再是你价值的锚点。如果你每天的成就感来源于"我又写了一个优雅的函数",或者"我一个人手写了整个支付模块",那在未来两三年内,你可能需要重新理解"我为什么会值钱"这件事。
三、3 步准备清单——今天就能开始
结尾我不打算写"拥抱变化"四个字。以下是三个具体的事,今天就可以动手。
第 1 步:学会描述结果,而不是描述步骤
这是从代码写手到 Agent 管理者的核心切换。
比如你现在要给电商系统加退款流程。
旧写法(描述步骤):
先查订单状态,如果是已完成则更新为退款中,然后调支付网关退款接口,拿到退款单号后更新为已退款,发通知给用户……
新写法(描述结果):
实现完整退款流程。约束条件:只退已支付且未发货的订单、退款金额不超过实付金额、退款成功后发邮件加站内信、退款失败时回滚状态并记录失败原因。验收标准:写 3 个测试用例,覆盖正常退款、超时退款、重复退款。
两种写法的区别不在字数。在前者你还是跟代码绑在一起,后者你已经开始做"定义结果"。而定义结果这件事,Agent 做不了。
试一下:用今天的一个工作任务做实验。选一个你要写的功能,用"意图+约束+验收标准"三段式描述代替你的编码计划,丢给 Cursor 或者 Copilot 或者 Antigravity。记录下这个过程和你平时"边写边想"的感觉差在哪。
第 2 步:建立 Agent 输出的评估标准
大部分开发者在这里有一个坑。Agent 写了一堆代码,你怎么判断它对不对?
"跑一下看看能不能用"这个标准在 93 个 Agent 并行的时候太粗糙了。你需要一套自己用的检查清单,只不过这回顾的不是同事的代码,是 Agent 的产出。
一个最小版本:
- 功能完整性:所有约束条件满足没有?验收标准定义的用例跑过了?
- 边界处理:空输入、极值、并发、第三方超时——这些情况代码里都有处理吗?
- 架构一致:产出的代码跟项目的设计模式和目录结构对得上吗?
- 安全审计:有没有明显的注入风险、权限漏洞、敏感数据暴露?
- 可维护性:如果你要接手这段代码自己改,5 分钟内能看懂吗?
能用这套标准审 Agent 的产出,你就从"使用者"变成了"把关者"。这个转变,是安全感真正的来源。
第 3 步:把重复决策变成编排模板
你写了这么久的代码,仔细想想,很多决策是重复的。每个新项目差不多的目录结构,每次接支付差不多的流程,每次写 CRUD 差不多的三层架构。
这些重复决策,就是最容易做成编排模板的方向。
拿支付模块举例,一套模板可以是:
- Agent 1:负责支付接口集成(调 SDK、处理回调、签名验证)
- Agent 2:负责订单状态机(定义状态流转规则和校验逻辑)
- Agent 3:负责测试用例(正向、逆向、边界场景)
- Agent 4:负责文档生成(API 文档、流程说明)
你只需要调这四个 Agent、对齐接口约定、做整体集成验证。定义一次,以后每次有类似需求就复用这套编排。
这三步的共同点:它们都在把"编码"从你的肌肉记忆变成你的管理对象。不是让你不写代码了,是让你用一个更高的维度去影响代码的产出质量。
最后
Google I/O 2026 的 Keynote 我没有逐字逐句翻译给你看,因为那不是你需要的。
你需要的是在自己今天的工作里,真实体验一次"管理 Agent"和"写代码"的区别。
选一个今天要写的功能,用三段话(意图、约束、验收标准)描述给 AI Agent,不要自己写。做完之后,问自己三个问题:
- 如果 93 个这样的 Agent 同时工作,我还能做什么它们做不到的?
- 我今天引以为傲的开发技能里,哪些在 12 个月后 Agent 会做得更好?
- 如果明年面试的岗位要求是"能管理多 Agent 编排管道",我现在缺什么?
参考来源:Google I/O 2026 Keynote 官方演示、Google 官方博客