原文:Product management on the AI exponential,Cat Wu(Anthropic Claude Code 产品负责人),2026.3.19。以下为编译整理。
Cat Wu 有一个持续了一年多的测试:每当 Anthropic 出新模型,她就让 Claude Code 给开源画板工具 Excalidraw 加一个表格功能。
2024 年 10 月,Sonnet 3.5 (new) 能走到一半就卡住。2025 年 6 月 Opus 4 发布,偶尔能跑通,团队把成功的过程录下来,在模型发布会上当 demo 放。
再过不到一年,Opus 4.6 做这件事已经足够稳定,团队直接在几千名开发者面前做现场演示。
这个小测试浓缩了一个核心问题:当模型能力几个月就跳一个台阶,产品经理该按什么节奏做产品?
老方法的前提不成立了
传统 PM 工作流有一个隐含前提:项目开始时的技术边界,和项目结束时差不多。所以 PM 可以前期调研、写 PRD、按计划执行几个月。
模型的指数增长打破了这个前提。你设计方案时绕开的限制,可能项目做到一半就不存在了。你是在一块持续升高的地面上盖楼。
Cat Wu 给出的新节奏是三个词:快速实验、持续交付、加倍押注有效的方向。
一个 PM 的日常工具怎么搭配
Cat Wu 之前是 Scale AI 和 Dagster 的产品工程师,后来去做了风投。做风投期间她写代码扫描 X 上的新公司公告、监测开源项目增长趋势。2024 年 8 月加入 Anthropic。
Claude Code 内部上线后,她用它搭了用户反馈分析工具(Streamlit)、跑评估找 benchmark、搭 RL 环境研究训练。几百小时的 prompting,零行手写代码。
她现在日常用三个工具分工:
Claude.ai 当思考搭子,不需要执行动作的时候用。策略讨论、棘手问题、快速问答。Claude Code 用来写代码,原型、评估脚本、调 API。Cowork 干剩下所有事,收件箱、待办、幻灯片、搜 Slack 找历史决策、订差旅。

她和其他公司的 PM 聊过,大家都摸索出了类似的组合。
Decagon 产品总监 Bihan Jiang 说:"过去让客户摸到实物要几周开发。现在我先在 Cowork 里拉上下文,转到 Claude Code,几小时就有可演示的东西。好团队一直在做客户验证,这点没变。变的是你能把多少想法真正跑完这个循环。"
Datadog 高级产品经理 Kai Xin Tai 说:"每个新模型都改变了可能性的边界。我们用真实生产事故做离线评估,研究模型在哪些场景好用、在哪些场景拉胯。PM 的活儿从'前期把事情想清楚'变成了'加速把事情搞明白'。"
41 倍的能力跳升意味着什么
METR(AI 评估机构)的数据:Opus 4.6 大约有一半概率完成人类需要 12 小时的软件任务。16 个月前,Sonnet 3.5 (new) 只能做到人类 21 分钟级别的活。能力跳了大约 41 倍。

Claude Code 团队也跟着变了。设计师开始交付代码,工程师参与产品决策,PM 自己搭原型跑评估。之所以行得通,是因为战略和目标足够清晰,每个人可以自主判断优先级。PM 要做的事变成了:把模型快速迭代带来的混乱理出头绪,让团队敢想更大的事,扫清交付路上的障碍。
他们总结了四条做法。
鼓励 side quest,别锁死路线图
传统做法是先探索、再锁路线图、再执行。Claude Code 团队反过来:鼓励所有人在正式路线图之外做 side quest。花一个下午原型化一个想法,测试一个你以为做不到的事,看看把模型推到极限会怎样。
桌面版 Claude Code、AskUserQuestion 工具、待办清单,这几个 Anthropic 最受欢迎的功能都是 side quest 出来的。
先出 demo,后写文档
团队不开传统站会,改成分享 demo。内部用户试了,真有人用的功能才去打磨推广。一个下午就能做原型,押错了损失很小。
一个实际例子:Noah 写了插件规范,交给 Claude Code 生成原型,出来的东西接近生产可用。这个原型直接锚定了最终方案,因为团队可以拿它去验证用户体验,而不是对着文档争论。
Cat Wu 给了一条建议:写完规范后,先发给 Claude Code 让它试着做。哪怕出来的很粗糙,也比空聊有用得多。
每次模型升级,回头看一遍老功能
交付了一个功能之后更好的模型出来了,你的功能可能一下好用很多。每次模型发布都是一个提醒:回去看看之前做的东西。
怎么抓住这种时刻?自己当日活用户,故意让模型做你觉得太难的事。有时候它成功了,说明产品该跟上了。
Chrome 集成就是这么来的。团队发现用户在 Claude Code 里写完 Web 应用后,手动打开 Chrome 里的 Claude 来测试,两个工具之间复制粘贴指令。手动流程能跑通,说明这该做成内置功能。
原型阶段还有一条原则:先验证能力上限,别急着省 token。过早砍成本是常见错误,你会交付一个打了折的东西。等便宜模型追上来再优化成本,但前提是你得先知道这功能行不行。
越简单越好
Anthropic 内部有一条原则:做简单的、能用的事。
如果你写了一个巧妙的 workaround 绕过模型限制,下一个模型一出这个 workaround 就成了负担。实现越简单,新能力来的时候替换越轻松。
待办清单的例子:刚上线时模型不会自动打勾,团队在系统提示里加了定期提醒,让 agent 每隔几条消息就检查待办状态。管用但是个补丁。新模型发布后这个行为原生就有,提醒直接删了。同样的事反复发生:系统提示词过去被精心设计来补偿模型短板,随着模型进步不断精简。Opus 4.6 的提示词比之前少了 20%。
放手才能跑快
很多 PM 习惯精确控制产品体验的每个细节,但做 AI 产品要求你放手。Cat Wu 说这像冲浪,关键是别从浪上掉下来。作为完美主义者,这对她来说是最难的转变。PM 现在要做的是找出少数不能妥协的点,其他的松开。
效果是团队真的快了很多。PM 一个下午能从想法做到可用原型,"要不试试"和"你来试试"之间几乎没有时间差。
Anthropic 内部不只是 PM 在这么干。数据科学、财务、市场、法务、设计团队都自己上手了。没有哪个部门在等别人做完才能动。
PM 现在要同时盯两件事:AI 怎么改变你自己的工作方式,以及 AI 怎么改变你产品里的可能性。两件事都盯住了,当那个 Excalidraw 表格功能终于跑通的时候你不会吃惊,因为你是那个一直在测的人。
Cat Wu,Anthropic Claude Code 产品负责人。原文亦引用了 Decagon 的 Bihan Jiang 和 Datadog 的 Kai Xin Tai 的观点。