AI 写代码越快，越能暴露一件事：很多开发者根本不会验收拿一个最常见的前端场景说。你让 AI 写一个“删除用户”的弹窗

拿一个最常见的前端场景说。

你让 AI 写一个“删除用户”的弹窗。

它很快给你代码：按钮、弹窗、确认、调用接口、刷新列表。看起来完整，跑起来也没报错。

但你上线前真敢合吗？

用户连续点两次删除怎么办？接口慢的时候按钮有没有禁用？删除失败有没有恢复状态？没有权限时提示什么？弹窗关闭后 loading 会不会残留？移动端滚动有没有穿透？用户误触有没有二次确认？这个删除是不是还影响别的缓存？

这些问题，AI 不一定主动帮你想。

这就是 AI coding 时代最容易被低估的一件事：代码生成速度越来越快，验收能力反而越来越值钱。

Google I/O 2026 的开发者更新把 Antigravity、Gemini API 等放在 agentic development 语境里，强调从 prompt 到生产应用的开发工具链；Google 开发者 keynote 也提到 Antigravity 作为 agent-first development platform 的升级。

生成代码会越来越便宜。

但判断代码能不能进主分支，不会变便宜。

前端尤其明显。

因为前端很多 bug，不是“能不能跑”的问题，而是“真实用户怎么用”的问题。

一个表单能提交，不代表它防重复提交。一个列表能展示，不代表它处理空状态。一个弹窗能打开，不代表它处理键盘、滚动、焦点。一个删除按钮能点，不代表它有二次确认。一个权限按钮被隐藏，不代表越权请求不会发生。

AI 很擅长写出“看起来像那么回事”的代码。

但上线事故往往就藏在“看起来没问题”里。

前端开发者至少要验收五层。

第一层：需求有没有跑偏。

AI 经常会顺手发挥。你让它修一个按钮，它可能顺便重构组件；你让它补一个状态，它可能改了数据结构；你让它优化样式，它可能引入新依赖。

先问一句：它是不是只解决了原问题？

第二层：状态有没有补齐。

最基本的：

loading empty error success disabled pending retry

少一个状态，真实用户就可能撞上。

第三层：交互有没有防傻。

重复点击怎么办？请求慢怎么办？用户取消怎么办？手机端误触怎么办？弹窗关闭后状态是否清理？组件卸载后请求回来会不会 setState？

这些 AI 很容易漏。

第四层：权限有没有做真。

前端隐藏按钮不是权限控制。

接口报错怎么办？无权限提示怎么办？敏感字段有没有暴露？操作失败有没有回滚？普通用户能不能通过路径访问？

第五层：代码是否像你们团队的人写的。

AI 生成的代码经常能跑，但不一定能维护。

命名风格不一致。组件拆分不一致。错误处理不一致。状态管理方式不一致。重复造轮子。业务逻辑塞进 UI。

这些东西短期不报错，长期会恶心整个团队。

你可以直接让 AI 自己先审查：

不要继续写新代码。
先审查你刚才生成的前端代码。

按以下维度输出：
1. 是否满足原始需求
2. 是否遗漏 loading / empty / error 状态
3. 是否存在重复提交风险
4. 权限与异常处理是否完整
5. 是否符合现有组件规范
6. 是否需要补测试
7. 是否存在过度设计

每项给出：问题、风险等级、修改建议。

注意第一句：不要继续写新代码。

很多人让 AI“优化一下”，它就开始继续生成。结果代码越来越多，问题越来越隐蔽。

你要的是验收，不是堆代码。

如果要把这个动作变成团队流程，可以给每次 AI 生成的代码加一个最小验收表：

变更目标：
影响文件：
是否新增依赖：
是否覆盖 loading / empty / error：
是否存在重复提交：
是否影响权限：
是否补测试：
是否需要人工重点 review：

这比一句“AI 已完成修改”靠谱得多。

多模型也可以用来验收。比如把同一段 AI 生成代码交给不同模型做 review，看谁能发现更多边界问题。gpt985.com 可以放在这个场景里当交叉 review 入口，而不是单纯拿来“体验哪个模型更会写代码”。

但最终负责的人还是你。

AI 可以加速生成。不能替你承担上线后果。

未来开发者的差距，不一定在谁写得快。而在谁更会判断哪些代码不能合。

AI 越快，验收越重要。

你不验收，AI 不是帮你提效，是帮你更快制造技术债。