AI PM | Vibe Coding | 三月回顾上一篇写了从画画转行到 AI产品经理，我把方法拆成了四层，讲述了我转

💡核心观点

AI 产品经理做的不是"给产品加个 AI 功能"，而是设计一个完整的智能系统。这篇直接摊开我最近做的几个项目——公司的、个人的都有——你看完大概就知道我们每天在干啥了。

上一篇写了从画画转行到 AI产品经理，我把方法拆成了四层，讲述了我转行的来时路。有很多朋友加我好友，问我：大佬你是怎么转的啊，需要哪些技能，AI 产品经理和传统产品经理到底有什么区别？你们每天在干啥？我能转吗？

你们的心情，我真的特别能体会。尤其是那些还在家待业的朋友——每次和你们聊完，我都能感觉到那种压在心里的焦虑，还有反复拉扯自己的内耗，以及站在路口不知道该往哪走的迷茫。说实话，我也是一步步从那种状态里蹚过来的，太知道那种滋味了。

说实话我也很难一句话讲清楚。这样吧，这篇直接摊开我最近做的几个项目——公司的、自己的都有——你看完大概就知道了。也许会很干，理解起来会很难，但相信我，认真看完你一定有收获。同时也不要焦虑，咱们慢慢来。

先说下我每天怎么干活的

我在公司负责的事比较杂：整体前端的原型设计、Agent 端的行为设计、以及把新功能接入公司已有的运营后台。

对接的人不少。往上对领导的需求，横向跟产品同事协作，然后跟前后端工程师、UI 设计师、测试都要打交道。

所有沟通的起点是我写的PRD。

但这个 PRD 跟传统产品经理写的不太一样。传统 PRD 主要描述界面和交互流程，我的 PRD 里面还得写清楚：这个 Agent 在什么条件下触发、接收什么信息、怎么判断、输出什么格式、做不到的时候怎么兜底。

评审会上讨论的也不太一样。按钮放哪聊得少，聊得多的是"这个场景 AI 搞不定怎么办""模型返回格式不稳定前端怎么兜""这条数据回流到哪里"。

说白了就是，写 PRD 的时候得把 Agent 当成一个不太靠谱但很聪明的新员工——什么事交给它、什么事不能交、它搞砸了你怎么收场，都得提前想好。

内容审核 Agent

这个项目挺有挑战的，也是我做得比较细的一个。

背景

公司有大量多媒体内容需要审核：音频、图片、文档、会议记录等等。之前靠人工一条条过，效率很低，而且部分内容涉及隐私，处理上有很多限制。

我的任务是设计一个审核 Agent，把这些不同形式的内容统一审查。

接到这个需求的时候我拆了一下，发现它其实是三个递进的问题：先得把各种格式的内容"读懂"，然后才能判断有没有问题，最后还得保证判断是准的。每一步都有坑。

第一步：让机器"读懂"多媒体内容

文本文档直接读就行，但录音、图片、视频、会议记录——形式完全不一样，得先"翻译"成文本。

音频内容是第一个难点。要做语音转文字，但因为涉及隐私数据，不能丢给外部 API，必须本地部署。

我找了几个本地 ASR 模型，拉了一批真实音频做对比评测——主要看三个维度：转录准确率、方言和口音的识别能力、长音频的处理速度。

评测完发现一个问题：**口语化内容的准确率比书面文本差一截。**实际对话里夹杂大量口头禅、重复、打断、甚至方言混说，转出来的文本经常缺字错字。特别是专业术语和人名，转录模型基本靠猜。

这个问题在转录环节解决不了，只能在后面的审查环节做容错——比如关键词匹配的时候不能只做精确匹配，得加模糊匹配和近音词匹配，不然"敏感词"被转录成了"敏干词"就直接漏了。

图片和海报走 OCR。这里的坑是排版复杂——宣传图上的文字有大有小、有横有竖、有的还压在背景图上，普通 OCR 经常只提取到一部分。也做了本地 OCR 模型的对比评测，主要看中文识别准确率和复杂排版下的表现。

这一步折腾完，最终搭出来一条管线：不管什么格式进来，先过对应的解析模块（ASR / OCR / 文档解析），统一输出成结构化文本。后面的审查环节只跟文本打交道，不用管原始内容是什么形式。

**这个"统一转文本"的设计很关键。**如果针对每种媒体格式分别写审查逻辑，后面维护起来就是噩梦。把"理解内容"和"判断内容"拆成两层，每层只管自己的事，加新格式的时候只需要加一个解析模块，审查逻辑一行不用改。

第二步：关键词打底，Agent 兜底

文本拿到了，怎么判断有没有问题？

最直觉的方案是维护一个敏感词库，做关键词匹配。我一开始也是这么做的——把已知的敏感词、黑名单术语全灌进去，跑精确匹配和模糊匹配。

速度很快，成本很低，确实能够拦住了一批明确违规的内容。

但很快问题就来了。

测试反馈：**误报太多。**同一个词在不同场景下含义完全不同——在正常业务沟通里出现是完全合理的，但关键词匹配不管语境，命中就标红。运营得一条条去看、一条条去解除，比不做审查还累。

光靠关键词不行，得加一层"懂语境"的。

所以我在关键词之上加了Agent 兜底。流程变成这样：

内容先过关键词匹配——明确违规的直接拦截，速度快，不犹豫
关键词命中但可能是误报的，推给 Agent 二次判断——Agent 带着上下文去理解，这段话到底是什么意思、在什么场景下说的
关键词没命中但内容存疑的，也交给 Agent 做语义层面的审查

有人可能会问：**为什么不全交给 Agent？**两个原因：成本和速度。公司每天审核的内容量不小，每条都过一遍大模型，API 调用费用扛不住，响应速度也跟不上。关键词能解决 80% 的明确 case，Agent 只处理那 20% 需要"动脑子"的。

这个设计的核心思路其实和我做 AI 助手是一样的：**不是什么都交给 AI，而是想清楚哪些环节需要 AI、哪些不需要。**关键词是规则，Agent 是智能——规则管"确定的"，智能管"不确定的"，各司其职。

第三步：反复磨准确率

审查系统最怕两件事：误报和漏放。

误报多了，运营天天来申诉"这条没问题为什么被标了"，信任就崩了；漏放了，出事就是大事。

上线之前我把历史内容灌进管线跑了好几轮——看命中情况，逐条核对误报和漏放。每一轮测试完调敏感词库（有些词该加、有些词该放宽匹配条件），调 Agent 的判断 prompt（让它在特定场景下更严或更松），调置信度阈值（Agent 判断把握不大的推人工复核）。

这个过程没什么捷径，就是改一个参数、跑一轮测试、看结果、再改。和调 RAG 的逻辑一模一样。

我在运营后台做了一个审核结果看板，运营可以对每条结果标"正确"或"误判"。这些反馈数据回流过来，持续优化敏感词库和 Agent 的判断策略。审查系统不是上线就完事的产品，是一个需要持续养的系统。

现在管线已经交付给后端了。

AI 助手重构

这个项目目前还在设计阶段，还没进开发评审。但它是我花思考时间最多的一个，也最能体现 AI 产品经理到底在"设计"什么。

旧版有多烂

公司之前的 AI 助手，说实话就是套了个大模型。

用户问一个问题，模型把整个思考过程连带回答一坨全吐出来。一大段混乱的文字，没有思维链展示，没有结构化输出，看着就头疼。

但这还不是最大的问题。最大的问题是它是个信息孤岛——没有接入我们的课程数据，不认识我们的用户，不知道平台上有什么内容。用户问"有没有适合我的课程"，推荐的东西永远都是那几样热卖课。

也没有联网搜索，用户信息收集不了，画像更做不了。

总结就是：不认识用户、不认识产品、不会说人话。

我在设计什么

拿到这个重构任务，第一件事不是画原型，是想清楚一个问题：这个 AI 助手到底应该是什么？

不是一个通用聊天机器人，是一个认识我们产品、理解我们用户的业务助手。想清楚这个定位，后面所有设计决策都有了锚点。

场景拆分

旧版是一个大而全的 Agent 啥都干，效果啥都不行。我的方案是按场景拆成独立模块：

课程推荐——接入平台课程库和课程介绍，用户问"有没有 Python 入门课"，推荐的是我们平台上真实存在的课程，带封面带链接
联网搜索——用户问的问题超出我们平台范围时，能联网找答案
深度研究——用户想深入了解某个领域，Agent 帮忙做资料整理和分析
学习规划——根据用户背景和目标，生成个性化的学习路径

每个场景有自己的 Agent 逻辑和 prompt，该调哪个由路由层判断。这样做的好处是每个场景可以单独调优——课程推荐的 prompt 和深度研究的 prompt 完全是两套逻辑，硬塞在一个 Agent 里互相干扰，拆开之后各管各的。

记忆架构

这是我花时间最多的部分。

不同 Agent 有不同的记忆，但最终都要归到一个地方——用户画像。

比如用户在"深度研究"场景里聊了半小时 Python 爬虫，这段对话的记忆不只是留在深度研究模块里，还要提取出关键信息（用户对 Python 爬虫感兴趣、有一定基础、目标是做数据采集）回流到用户画像。下次用户打开"课程推荐"的时候，Agent 已经知道该推什么了。

短期记忆是当前对话的上下文，长期记忆是用户画像。每次 Agent 回答之前，都要先过一遍用户画像，带着对这个用户的了解去回应，而不是每次都从零开始。

前端怎么呈现

模型的思考过程和关键的工具调用，知识检索折叠起来，用户看到的是干净的结构化回答。课程推荐用卡片呈现，关键信息一目了然，不是一堆纯文字糊在一起。

接入运营后台

公司本来就有运营后台，我把 AI 助手相关的功能接了进去——对话质量、用户反馈、推荐准确率、异常 case，运营直接在后台看，不用找开发跑 SQL。

这个项目的原型和 Agent 设计方案目前已经做完了，接下来准备进评审。具体开发落地和踩坑的事，等后面再聊。

场景怎么拆、记忆怎么流转、上下文怎么组织——这些东西在传统产品经理的工作里根本不存在，但在 AI 产品设计里是最核心的部分。

SkillForge — 多领域的 Skill 平台

这个是个人项目 -- skills.yangsir.net

skills.sh 上有 8 万多个 Skill，但大部分是英文、而且同一个skill有很多不同的版本，没有任何分类，搜出来一堆自己翻，噪音太多，于是我做了 SkillForge，将大部分 Skills 分类为 26 个垂直领域分类——产品经理的 Skill、前端的 Skill、后端的 Skill——你按自己的领域筛选就行，不用大海捞针。还加了个 AI 搜索，用自然语言描述需求，帮你匹配。目前有 4700 个 Skills，还在持续更新中，也欢迎大家投稿自己的 Skills。