AI时代的产品经理，应该如何工作Cat Wu 有一个持续了一年多的测试：每当 Anthropic 出新模型，她就让 Cl

原文：Product management on the AI exponential，Cat Wu（Anthropic Claude Code 产品负责人），2026.3.19。以下为编译整理。

Cat Wu 有一个持续了一年多的测试：每当 Anthropic 出新模型，她就让 Claude Code 给开源画板工具 Excalidraw 加一个表格功能。

2024 年 10 月，Sonnet 3.5 (new) 能走到一半就卡住。2025 年 6 月 Opus 4 发布，偶尔能跑通，团队把成功的过程录下来，在模型发布会上当 demo 放。

再过不到一年，Opus 4.6 做这件事已经足够稳定，团队直接在几千名开发者面前做现场演示。

这个小测试浓缩了一个核心问题：当模型能力几个月就跳一个台阶，产品经理该按什么节奏做产品？

老方法的前提不成立了

传统 PM 工作流有一个隐含前提：项目开始时的技术边界，和项目结束时差不多。所以 PM 可以前期调研、写 PRD、按计划执行几个月。

模型的指数增长打破了这个前提。你设计方案时绕开的限制，可能项目做到一半就不存在了。你是在一块持续升高的地面上盖楼。

Cat Wu 给出的新节奏是三个词：快速实验、持续交付、加倍押注有效的方向。

一个 PM 的日常工具怎么搭配

Cat Wu 之前是 Scale AI 和 Dagster 的产品工程师，后来去做了风投。做风投期间她写代码扫描 X 上的新公司公告、监测开源项目增长趋势。2024 年 8 月加入 Anthropic。

Claude Code 内部上线后，她用它搭了用户反馈分析工具（Streamlit）、跑评估找 benchmark、搭 RL 环境研究训练。几百小时的 prompting，零行手写代码。

她现在日常用三个工具分工：

Claude.ai 当思考搭子，不需要执行动作的时候用。策略讨论、棘手问题、快速问答。Claude Code 用来写代码，原型、评估脚本、调 API。Cowork 干剩下所有事，收件箱、待办、幻灯片、搜 Slack 找历史决策、订差旅。

Claude Code 和 Cowork 正在模糊产品开发生命周期中不同角色的边界

她和其他公司的 PM 聊过，大家都摸索出了类似的组合。

Decagon 产品总监 Bihan Jiang 说："过去让客户摸到实物要几周开发。现在我先在 Cowork 里拉上下文，转到 Claude Code，几小时就有可演示的东西。好团队一直在做客户验证，这点没变。变的是你能把多少想法真正跑完这个循环。"

Datadog 高级产品经理 Kai Xin Tai 说："每个新模型都改变了可能性的边界。我们用真实生产事故做离线评估，研究模型在哪些场景好用、在哪些场景拉胯。PM 的活儿从'前期把事情想清楚'变成了'加速把事情搞明白'。"

41 倍的能力跳升意味着什么

METR（AI 评估机构）的数据：Opus 4.6 大约有一半概率完成人类需要 12 小时的软件任务。16 个月前，Sonnet 3.5 (new) 只能做到人类 21 分钟级别的活。能力跳了大约 41 倍。

METR 前沿 AI 模型任务完成时间跨度研究

Claude Code 团队也跟着变了。设计师开始交付代码，工程师参与产品决策，PM 自己搭原型跑评估。之所以行得通，是因为战略和目标足够清晰，每个人可以自主判断优先级。PM 要做的事变成了：把模型快速迭代带来的混乱理出头绪，让团队敢想更大的事，扫清交付路上的障碍。

他们总结了四条做法。

鼓励 side quest，别锁死路线图

传统做法是先探索、再锁路线图、再执行。Claude Code 团队反过来：鼓励所有人在正式路线图之外做 side quest。花一个下午原型化一个想法，测试一个你以为做不到的事，看看把模型推到极限会怎样。

桌面版 Claude Code、AskUserQuestion 工具、待办清单，这几个 Anthropic 最受欢迎的功能都是 side quest 出来的。

先出 demo，后写文档

团队不开传统站会，改成分享 demo。内部用户试了，真有人用的功能才去打磨推广。一个下午就能做原型，押错了损失很小。

一个实际例子：Noah 写了插件规范，交给 Claude Code 生成原型，出来的东西接近生产可用。这个原型直接锚定了最终方案，因为团队可以拿它去验证用户体验，而不是对着文档争论。

Cat Wu 给了一条建议：写完规范后，先发给 Claude Code 让它试着做。哪怕出来的很粗糙，也比空聊有用得多。

每次模型升级，回头看一遍老功能

交付了一个功能之后更好的模型出来了，你的功能可能一下好用很多。每次模型发布都是一个提醒：回去看看之前做的东西。

怎么抓住这种时刻？自己当日活用户，故意让模型做你觉得太难的事。有时候它成功了，说明产品该跟上了。

Chrome 集成就是这么来的。团队发现用户在 Claude Code 里写完 Web 应用后，手动打开 Chrome 里的 Claude 来测试，两个工具之间复制粘贴指令。手动流程能跑通，说明这该做成内置功能。

原型阶段还有一条原则：先验证能力上限，别急着省 token。过早砍成本是常见错误，你会交付一个打了折的东西。等便宜模型追上来再优化成本，但前提是你得先知道这功能行不行。

越简单越好

Anthropic 内部有一条原则：做简单的、能用的事。

如果你写了一个巧妙的 workaround 绕过模型限制，下一个模型一出这个 workaround 就成了负担。实现越简单，新能力来的时候替换越轻松。

待办清单的例子：刚上线时模型不会自动打勾，团队在系统提示里加了定期提醒，让 agent 每隔几条消息就检查待办状态。管用但是个补丁。新模型发布后这个行为原生就有，提醒直接删了。同样的事反复发生：系统提示词过去被精心设计来补偿模型短板，随着模型进步不断精简。Opus 4.6 的提示词比之前少了 20%。

放手才能跑快

很多 PM 习惯精确控制产品体验的每个细节，但做 AI 产品要求你放手。Cat Wu 说这像冲浪，关键是别从浪上掉下来。作为完美主义者，这对她来说是最难的转变。PM 现在要做的是找出少数不能妥协的点，其他的松开。

效果是团队真的快了很多。PM 一个下午能从想法做到可用原型，"要不试试"和"你来试试"之间几乎没有时间差。

Anthropic 内部不只是 PM 在这么干。数据科学、财务、市场、法务、设计团队都自己上手了。没有哪个部门在等别人做完才能动。

PM 现在要同时盯两件事：AI 怎么改变你自己的工作方式，以及 AI 怎么改变你产品里的可能性。两件事都盯住了，当那个 Excalidraw 表格功能终于跑通的时候你不会吃惊，因为你是那个一直在测的人。

Cat Wu，Anthropic Claude Code 产品负责人。原文亦引用了 Decagon 的 Bihan Jiang 和 Datadog 的 Kai Xin Tai 的观点。