为什么 95% 的 AI Agent 做不起来？（精华版）为什么 95% 的 AI Agent 做不起来？（精华版）为

为什么 95% 的 AI Agent 做不起来？（精华版）

字数 1306，阅读大约需 7 分钟

现在 95% 的 AI 智能体（比如能自动处理任务的 AI 工具）放到实际业务里都用不起来，只有 5% 能真正落地。

作者通过一场有 Uber、WisdomAI 等公司工程师参与的研讨会，拆解了那 5% 能成的 AI 智能体到底做好了啥，还给想做 AI 产品的人提了建议，说得特别实在，没太多技术黑话，具体能分成这几块：

首先得搞明白一个误区：很多人以为在做 AI 产品，其实是在做 “选信息” 的系统。

不是说 AI 模型不够聪明，而是模型周围的 “架子” 没搭好 —— 比如该给 AI 喂哪些有用信息、怎么保证安全、怎么让 AI “记事儿”，这些没做好，AI 就没法落地。有人打了个比方很形象：“基础模型是土壤，给 AI 的‘上下文信息’才是种子”，光有好土没好种子，啥也长不出来。

然后重点讲了那 5% 的 AI 都搞定了哪些关键问题，这也是最核心的部分：

第一是 “上下文工程”，不是瞎给 AI 塞提示词。很多人用 “检索增强生成（RAG）” 给 AI 补信息，但大多做得很粗糙 —— 要么啥都往里塞，AI 看得晕；要么塞得太少，AI 没信号；要么混着结构化数据（比如表格）和非结构化数据（比如 PDF），直接搞乱了。

真正厉害的做法是分层处理：比如先做 “语义层”（像搜相似内容），再做 “元数据层”（按文档类型、权限、时间筛信息），还得验证信息对不对、跟踪哪些信息让 AI 输出更好，把给 AI 的信息当成 “可检查、可测试的正经物料”，而不是随便一段文字。

第二是 “治理和信任”，不只是大企业才需要。比如得能追溯 “AI 的输出是来自哪些输入”，不然出问题没法查；不同员工问同一个问题，AI 得根据权限给不同答案（比如普通员工看不到高管数据），不然会泄密或违规。

更重要的是 “人信不信 AI”—— 有人举了个例子，他老婆不用特斯拉自动驾驶，不是因为不好使，是因为不信。所以那 5% 的 AI 都设计了 “人在回路”：AI 只当助手，不自己做决定，人能改、能验证，慢慢就信了。

第三是 “AI 的记忆”，不是随便存点东西。记忆分层次：个人层面（比如你喜欢表格还是图表、写作风格）、团队层面（比如常用的查询、操作手册）、公司层面（比如规章制度、历史决策）。

很多初创公司把记忆硬塞进代码里，而厉害的公司会把记忆做成 “可组合、可版本控制” 的层。但这里有个矛盾：记忆多了体验好，但太懂你又会让人觉得 “隐私被侵犯”（比如 AI 能叫出你孩子的名字推荐电影，你会不舒服）。现在还缺一个 “安全又能跨 APP 用的记忆层”，谁能做出来是个大机会。

第四是 “多模型配合”，不是啥都让 GPT-4 干。实际用的时候，得根据任务选模型：简单查询用本地小模型（快、便宜），要查数据库就用能转 SQL 的模型，复杂分析才用 GPT-4 这类大模型，还得有备用模型以防万一。

这就像搭积木，不是只用一块，而是把不同模型、工具组合起来，还能根据用得好不好慢慢调整选模型的逻辑。

第五是 “界面设计”，不是啥都要聊天框。有人问 “为啥订 Uber 不用聊天，点几下就行？”

其实聊天只适合两种情况：一是你很烦躁，不想点菜单（比如客服）；二是需求很复杂（比如 “找加州海边、能看见蓝天的 Airbnb”）。

真正好的设计是 “聊天开头 + GUI 收尾”：用聊天快速提需求，之后用按钮、下拉框改结果（比如把饼图换成柱状图），让用户自己选舒服的方式。

最后还说了现在缺啥、未来机会在哪，以及给创业者的 5 个灵魂拷问：

比如 “你给 AI 的信息预算是多少？”、“AI 的记忆边界在哪？”、“你能追踪输出溯源吗？”、“你用单一模型还是多模型？”、“人会不会信你的 AI 处理钱或病历？”—— 这些问题想不清楚，AI 就很难落地。

总结下来就是：想让 AI 落地，别光盯着模型多聪明，得把 “给 AI 的信息、AI 的记忆、多模型配合、人的信任、界面设计” 这些 “基本功” 做好，这些才是那 5% 的 AI 能成的关键。