拿一个最常见的前端场景说。
你让 AI 写一个“删除用户”的弹窗。
它很快给你代码:按钮、弹窗、确认、调用接口、刷新列表。看起来完整,跑起来也没报错。
但你上线前真敢合吗?
用户连续点两次删除怎么办? 接口慢的时候按钮有没有禁用? 删除失败有没有恢复状态? 没有权限时提示什么? 弹窗关闭后 loading 会不会残留? 移动端滚动有没有穿透? 用户误触有没有二次确认? 这个删除是不是还影响别的缓存?
这些问题,AI 不一定主动帮你想。
这就是 AI coding 时代最容易被低估的一件事:代码生成速度越来越快,验收能力反而越来越值钱。
Google I/O 2026 的开发者更新把 Antigravity、Gemini API 等放在 agentic development 语境里,强调从 prompt 到生产应用的开发工具链;Google 开发者 keynote 也提到 Antigravity 作为 agent-first development platform 的升级。
生成代码会越来越便宜。
但判断代码能不能进主分支,不会变便宜。
前端尤其明显。
因为前端很多 bug,不是“能不能跑”的问题,而是“真实用户怎么用”的问题。
一个表单能提交,不代表它防重复提交。 一个列表能展示,不代表它处理空状态。 一个弹窗能打开,不代表它处理键盘、滚动、焦点。 一个删除按钮能点,不代表它有二次确认。 一个权限按钮被隐藏,不代表越权请求不会发生。
AI 很擅长写出“看起来像那么回事”的代码。
但上线事故往往就藏在“看起来没问题”里。
前端开发者至少要验收五层。
第一层:需求有没有跑偏。
AI 经常会顺手发挥。你让它修一个按钮,它可能顺便重构组件;你让它补一个状态,它可能改了数据结构;你让它优化样式,它可能引入新依赖。
先问一句:它是不是只解决了原问题?
第二层:状态有没有补齐。
最基本的:
loading empty error success disabled pending retry
少一个状态,真实用户就可能撞上。
第三层:交互有没有防傻。
重复点击怎么办? 请求慢怎么办? 用户取消怎么办? 手机端误触怎么办? 弹窗关闭后状态是否清理? 组件卸载后请求回来会不会 setState?
这些 AI 很容易漏。
第四层:权限有没有做真。
前端隐藏按钮不是权限控制。
接口报错怎么办? 无权限提示怎么办? 敏感字段有没有暴露? 操作失败有没有回滚? 普通用户能不能通过路径访问?
第五层:代码是否像你们团队的人写的。
AI 生成的代码经常能跑,但不一定能维护。
命名风格不一致。 组件拆分不一致。 错误处理不一致。 状态管理方式不一致。 重复造轮子。 业务逻辑塞进 UI。
这些东西短期不报错,长期会恶心整个团队。
你可以直接让 AI 自己先审查:
不要继续写新代码。
先审查你刚才生成的前端代码。
按以下维度输出:
1. 是否满足原始需求
2. 是否遗漏 loading / empty / error 状态
3. 是否存在重复提交风险
4. 权限与异常处理是否完整
5. 是否符合现有组件规范
6. 是否需要补测试
7. 是否存在过度设计
每项给出:问题、风险等级、修改建议。
注意第一句:不要继续写新代码。
很多人让 AI“优化一下”,它就开始继续生成。结果代码越来越多,问题越来越隐蔽。
你要的是验收,不是堆代码。
如果要把这个动作变成团队流程,可以给每次 AI 生成的代码加一个最小验收表:
变更目标:
影响文件:
是否新增依赖:
是否覆盖 loading / empty / error:
是否存在重复提交:
是否影响权限:
是否补测试:
是否需要人工重点 review:
这比一句“AI 已完成修改”靠谱得多。
多模型也可以用来验收。比如把同一段 AI 生成代码交给不同模型做 review,看谁能发现更多边界问题。gpt985.com 可以放在这个场景里当交叉 review 入口,而不是单纯拿来“体验哪个模型更会写代码”。
但最终负责的人还是你。
AI 可以加速生成。 不能替你承担上线后果。
未来开发者的差距,不一定在谁写得快。 而在谁更会判断哪些代码不能合。
AI 越快,验收越重要。
你不验收,AI 不是帮你提效,是帮你更快制造技术债。