AI 编程能力边界探索:一次 Claude Code 实战,揭开 Spec Coding 的真正价值

7 阅读15分钟

最近看到得物技术分享的一篇实战复盘,标题很长,但核心问题其实很简单:

AI 到底能把编程这件事,推进到什么程度?它真正的边界又在哪里?

这不是一个适合空谈的话题。

因为过去大家聊 AI Coding,往往容易滑向两个极端: 一边觉得它已经快把程序员替掉了,另一边觉得它不过就是“高级补全”。但真正有价值的答案,从来不在口号里,而在真实项目里。

而这次复盘最有意思的地方在于,它不是随便写几个 demo,也不是做一个玩具项目,而是拿 Claude Code 在 10 天内,从 0 到 1 完成一个企业级中后台项目,然后把整个过程拆开给你看。

数据也很直接:

  • 10 天开发周期
  • 25,546 行净增代码
  • 217 条人工指令
  • 2,754 次工具调用
  • 整体提效 36%

看上去很猛,但真正值得关注的,不是这些数字本身,而是数字背后那套方法论。

作者最后其实讲明白了一件事:

AI 编程真正的提效,不在于“让 AI 直接写代码”,而在于先用规范、规格和上下文,把不确定性消灭在执行之前。

这篇文章,我想换一个更适合公众号阅读的方式,和你聊聊它到底讲了什么,以及它为什么值得每一个做开发、做产品、做 AI 工具的人认真看一遍。


一、AI 编程最容易被误解的地方

现在很多人理解 AI Coding,还是停留在一个很表层的想象里:

给它一句需求,它吐出一段代码。

这种方式当然能用,甚至在很多简单场景下还挺爽。改个文案,修个样式,写个小组件,确实很像多了一个二十四小时在线的高级外包。

但问题也恰恰出在这里。

当需求一复杂,链路一变长,涉及多个文件、多个模块、多个角色协作时,你会很快发现,AI 最大的问题不是“不会写”,而是不知道你真正想要什么,也不知道哪些东西不能乱动

它的执行力很强,但它没有天然的业务常识;它能快速生成,但它并不自动理解团队规范;它可以不断尝试,但它并不知道你们公司的线上环境到底埋了哪些历史包袱。

所以,AI Coding 的核心挑战,从来都不是“让 AI 写代码”,而是:

如何让 AI 在正确的边界内写代码。

这也是这篇文章提出 Spec Coding 的真正背景。


图片

二、Spec Coding 到底是什么

所谓 Spec Coding,说白了就是四个字:

先写规格,再写代码。

听起来很朴素,甚至有点像传统软件工程的“返场演出”,但它放在 AI 场景里,意义完全不一样。

在这套工作流里,每个功能变更不是直接开干,而是先经过几个阶段:

  • proposal:为什么做
  • design:怎么设计
  • specs:具体规格是什么
  • tasks:拆成哪些步骤执行

也就是说,AI 不是一上来就开始敲代码,而是先拿到一份“蓝图”。

这个蓝图的价值非常大。

它不是为了增加流程感,也不是为了显得专业,而是为了避免 AI 最擅长做的一件危险的事:

在目标不够清晰的时候,自己脑补一个“看起来合理”的答案。

很多人用 AI 写代码踩坑,本质上都踩在这里。

你以为你说清楚了,其实你只说了一个模糊目标; 你以为 AI 会反问,结果它直接开始执行; 你以为它是在“理解你”,其实它是在“补全你”。

而 Spec Coding 的作用,就是在 AI 补全之前,先把该讲清楚的都讲清楚。

这一步,决定了后面到底是一路丝滑,还是一路返工。


三、这次实战项目到底验证了什么

文章里做的是一个标准企业级中后台项目,包含表格、表单、卡片列表、数据看板等常见模块。

整个过程分成四个阶段。

1. 设计阶段

这一阶段还没开始写业务代码,重点是把产品方向、UI 设计稿和 PRD 先做出来。

有意思的是,AI 在这里并不是只扮演“工程师”,而是分别切换成不同角色:

  • 扮演产品经理,先定义需求
  • 扮演 UI 设计师,生成高保真 HTML 设计稿
  • 再生成研发可读的 PRD 文档

这其实说明一个非常关键的趋势:

AI 不是只能接管 coding,它其实正在往整个软件生产链条里渗透。

从需求定义,到设计表达,再到研发对齐,它都可以参与。

当然,参与不等于替代,但这已经足够说明问题了。

2. 项目搭建阶段

这一阶段主要做基础设施搭建,熟悉技术栈、配置环境、建立项目结构,并完成第一个核心列表页面。

这里 AI 更像一个高效搭子,帮你快速铺好地基。

3. 功能开发阶段

这是整个项目最核心的阶段。

作者明确提到,大约 80% 的功能代码 都是在这个阶段完成的,而且这一阶段真正引入了 Spec Coding 工作流。

也就是说,他们不再是“给 AI 下指令”,而是“先和 AI 定义规格,再让 AI 按规格执行”。

这个变化很关键。

因为从这个时刻开始,AI 不再只是一个被动响应器,而更像一个能够在既定规则中持续推进任务的执行系统

4. 细节打磨与部署阶段

最后进入优化、重构、部署和排障。

到这里,AI 的价值依然很高,但它的能力边界也开始逐渐暴露。

尤其是在构建失败、环境差异、依赖问题、CI 无法复现这种场景里,AI 就不像前期那样“势如破竹”了。

这也让整篇文章从“AI 很强”走向了更诚实的一个结论:

AI 确实能大幅提效,但并不是所有工程问题都能靠它独立解决。


四、AI 最强的,不是创造,而是执行确定性

我觉得这篇文章里最值钱的一句话,不是哪个数据,也不是哪个案例,而是作者对 AI 的重新定义:

AI 不是 Copilot,而是一个极度服从、无限耐心、但没有内部业务常识的顶级执行者。

这个描述非常到位。

为什么?

因为它一下子把 AI Coding 的能力模型讲透了。

1. 它极度服从

你写给它的规范越清晰,它执行得越稳定。

但反过来,这也是风险所在。

AI 不会天然提醒你“这个需求可能有问题”,也不会总是质疑“这样设计真的合理吗”。它往往会在你给出的边界内,尽可能把事情做完。

所以一旦规范含糊、目标模糊,它也会非常努力地把一个错误方向执行到底。

2. 它无限耐心

人类最容易疲劳的地方,在 AI 这里几乎都不是问题。

重构 34 个任务,联调 9 组接口,跨会话恢复上下文,不断更新任务状态,这些工作对人来说极其消耗意志力,但 AI 不会烦,也不会累。

这意味着它非常适合处理那种:

  • 重复但不能出错
  • 复杂但可以拆解
  • 冗长但规则明确

的任务。

3. 它没有业务常识

这也是边界所在。

它不知道你们公司的线上环境有什么历史遗留; 它不知道某个接口虽然文档没变,但实际字段已经偷偷调整; 它也不知道某个交互看起来合理,但放到真实用户场景里会被骂。

这些东西,不在它的上下文里,它就不知道。

换句话说,AI 强在显性知识,弱在隐性系统。


五、AI 失效,往往不是随机的

文章里总结了三种非常典型的失效模式,我觉得每个团队都值得对照一下。

模式一:规范真空

当某个领域没有明确规范时,AI 会自动补上“合理默认值”。

它写出来的东西可能功能没错,但风格、结构、目录分层、命名方式,很容易慢慢偏离团队标准。

这也是为什么很多人刚开始觉得 AI 写得挺快,写着写着却发现项目越来越乱。

不是 AI 故意乱来,而是因为没人提前告诉它,“在这里,什么叫对”。

模式二:信息孤岛

AI 拿到的是当前会话里的上下文快照,它并不能天然看到系统外部状态。

所以你会遇到这种情况:

  • 本地跑得好好的
  • CI 一跑就炸
  • AI 每次分析都看起来对
  • 但解决的只是当前暴露出来的那一层问题

这类问题的可怕之处在于,AI 并不是不聪明,而是它缺少决定性信息。

模式三:目标模糊

很多时候用户说的是“优化一下”“改得更好看一点”“这里不太对”,这种表述对人类同事来说也许还能边聊边磨,但对 AI 来说,很可能就变成了一个危险信号。

它会自动把模糊目标翻译成具体动作,然后开始执行。

结果就是:

你只是想微调,它却顺手重构了; 你只是想优化体验,它却动了核心结构; 你本来需要它先问一句,它却已经改完了三版。

所以很多时候,不是 AI 太能干,而是我们给得太模糊。


六、那场 4 小时排障,为什么特别有代表性

整篇文章里,我觉得最值得反复回味的,不是成功案例,而是那个失败得很“真实”的排障场景。

某一天,项目测试环境构建失败。

最后他们花了:

  • 4 小时
  • 7 个会话
  • 15 次以上方案尝试
  • 59 条指令

才最终定位问题。

这里最精彩的地方在于:

AI 每次分析都没有错。

问题不在分析能力,而在于这个问题本身的结构,超出了 AI 的可观测范围。

比如:

  • 问题发生在云端,本地无法复现
  • 每次验证都要提交代码、等待 CI,反馈周期很长
  • 多个根因层层遮挡,修一层才露下一层
  • 真正的根因藏在依赖内部源码里,没有任何显式文档

最终定位出来的原因也很工程化:

  • .npmrc 的历史副作用误伤了依赖安装
  • Prisma 的下载行为在境外环境里沉默卡死
  • pnpm 的跨平台 lockfile 造成安装结果不一致

这类问题,其实已经不是单纯的“代码问题”,而是环境、依赖、平台、构建链路、历史配置共同作用下的系统问题。

而系统问题,恰恰是当前 AI 最难独立解决的领域之一。

这件事给我的启发很大。

它说明:

AI 不怕复杂,AI 怕的是看不全。

只要信息足够完整,规则足够稳定,它能把复杂任务拆得很漂亮; 但只要关键状态藏在上下文外面,它就会像蒙着眼进迷宫,局部推理再强,也很难一次性走出去。


七、真正让 AI 变稳的,不是一句提示词,而是一套规范体系

文章里专门讲了一个非常重要的部分:规范体系。

他们把规范分成三层。

第一层:约束层

这一层负责告诉 AI:

  • 禁止什么
  • 必须怎样做

比如 TypeScript 规范、命名规范、注释规范、代码风格、页面目录结构、接口生成规范等等。

这是“护栏”。

第二层:示范层

这一层负责告诉 AI:

  • 标准答案长什么样

比如 pro-table、pro-form、editable table、drawer 等模板代码。

这是“样板房”。

第三层:视觉层

这一层负责告诉 AI:

  • 页面应该长什么样

通过 HTML 设计稿,让它理解布局、样式、间距和视觉意图。

这是“参考图”。

这三层结构看似简单,其实非常重要。

因为很多团队只做了第一层,也就是只告诉 AI 不能做什么,却没有给它足够多的“正向参考”。

结果就是 AI 虽然没违规,但写出来的东西总有种说不出的别扭。

作者总结得很准确:

规范文件只是约束,不是能力。

AI 知道什么不能做,并不代表它天然知道什么是“符合团队风格的最佳实践”。

所以你不能只给它红线,还要给它样例、给它设计、给它上下文。

说得更直白一点:

别只教 AI 避坑,也要教它什么叫“走得漂亮”。


八、MCP 工具的意义,不只是“接个工具”那么简单

文章里还提到两个非常有意思的 MCP 接入场景:

  • 接口文档直连
  • 飞书云文档直读

很多人看 MCP,容易只把它理解成“给 AI 装插件”,但这个理解其实有点浅。

MCP 的真正价值,在于:

消除 AI 上下文里的信息断层。

为什么前端联调经常返工?

因为接口文档不在当前上下文里,开发者只能手动复制字段、枚举、必填项,一旦漏一点,AI 生成的接口定义就可能偏掉。

为什么需求理解经常断档?

因为 PRD、设计文档、协作文档散落在飞书里,每次都要来回复制粘贴,不仅打断思路,还容易丢信息。

当这些信息源能被 AI 直接读取时,很多原本靠人工搬运的上下文,就能被自动补齐。

这本质上是在做一件事:

让 AI 看见原本看不见的东西。

而一旦看见,很多问题就不再是问题。


九、开发者不会消失,但角色一定会变化

这篇文章的结尾没有停在“AI 很厉害”,而是落到了一个更现实的问题上:

开发者接下来最重要的能力,会变成什么?

我觉得作者的判断非常准。

未来真正值钱的,可能不再只是“你能亲手写出多少代码”,而是:

  • 你能不能把模糊需求定义清楚
  • 你能不能设计出稳定的规范和边界
  • 你能不能把复杂任务拆成 AI 能可靠执行的步骤
  • 你能不能识别哪些问题属于系统问题,哪些问题适合交给 AI
  • 你能不能把质量控制前移到设计阶段,而不是等代码生成完再返工

说到底,AI 并没有让开发者变得不重要,反而让开发者从“执行者”更明显地变成了“系统设计者”。

过去,一个优秀工程师的价值,可能更多体现在写代码的速度和质量上。

而接下来,一个优秀工程师的价值,会越来越体现在:

能不能为 AI 构建一个高确定性的执行空间。

谁更会定义边界,谁就更能放大 AI; 谁更会设计规则,谁就更能稳定提效; 谁更懂系统,谁就更知道什么时候该信 AI,什么时候必须自己下场。


十、最后的结论:AI 负责冲锋,人负责定边界

如果要用一句话总结这篇文章,我会写成这样:

AI 编程的本质,不是让 AI 替你写代码,而是用结构化规范和工作流,把不确定性消灭在执行之前。

AI 负责在确定性空间里高速执行, 人负责维护、扩展和修正那个确定性空间的边界。

这可能才是 AI Coding 真正成熟之后的样子。

不是一句提示词包打天下,也不是程序员一夜失业,而是软件开发从“手工执行密集型”慢慢转向“规则设计密集型”。

回头看这次 Claude Code 的实战,最重要的收获并不是“10 天写了多少行代码”,而是它让我们更清楚地看见了:

  • AI 哪里真的能提效
  • AI 哪里会稳定失效
  • 什么样的工作流能让 AI 更可控
  • 开发者未来真正该修炼的能力是什么

说得再锋利一点就是:

以后拉开人与人差距的,也许不是谁更会写 Prompt,而是谁更会把混乱问题压缩成可执行系统。

而在这件事上,Spec Coding 不是一个小技巧,它更像是一块路标。

它提醒我们,AI 时代的工程竞争力,不只是写代码的手,更是定义规则的脑。


结语

如果你只是把 AI 当成自动补全工具,这篇文章会告诉你,它远不止于此。

如果你已经在用 AI 写代码,这篇文章会提醒你,真正的瓶颈不在模型,而在规范、上下文和工作流。

如果你在带团队,这篇文章也许更值得看。因为它本质上讨论的不是某个工具,而是未来团队研发方式会如何变化。

AI 不会自动把软件工程变简单。

但它会逼着我们重新思考一件事:

什么该交给机器执行,什么必须由人来定义。

也许,这才是这次实战最有价值的地方。


如果你也在用 Claude Code、Cursor 或其他 AI Coding 工具,欢迎聊聊你遇到过的“高光时刻”和“翻车现场”。

很多时候,真正的经验,不在演示视频里,而在那些你以为 AI 能搞定,结果最后还是你自己顶上去的深夜里。

为什么有些 Claude、Codex 模型这么便宜?看完你就明白了国区最新充值 ChatGPT Plus 教程(2026 最新版)