为什么 95% 的 AI Agent 做不起来?(精华版)
字数 1306,阅读大约需 7 分钟
为什么 95% 的 AI Agent 做不起来?
现在 95% 的 AI 智能体(比如能自动处理任务的 AI 工具)放到实际业务里都用不起来,只有 5% 能真正落地。
作者通过一场有 Uber、WisdomAI 等公司工程师参与的研讨会,拆解了那 5% 能成的 AI 智能体到底做好了啥,还给想做 AI 产品的人提了建议,说得特别实在,没太多技术黑话,具体能分成这几块:
首先得搞明白一个误区:很多人以为在做 AI 产品,其实是在做 “选信息” 的系统。
不是说 AI 模型不够聪明,而是模型周围的 “架子” 没搭好 —— 比如该给 AI 喂哪些有用信息、怎么保证安全、怎么让 AI “记事儿”,这些没做好,AI 就没法落地。有人打了个比方很形象:“基础模型是土壤,给 AI 的‘上下文信息’才是种子”,光有好土没好种子,啥也长不出来。
然后重点讲了那 5% 的 AI 都搞定了哪些关键问题,这也是最核心的部分:
上下文工程
第一是 “上下文工程”,不是瞎给 AI 塞提示词。很多人用 “检索增强生成(RAG)” 给 AI 补信息,但大多做得很粗糙 —— 要么啥都往里塞,AI 看得晕;要么塞得太少,AI 没信号;要么混着结构化数据(比如表格)和非结构化数据(比如 PDF),直接搞乱了。
真正厉害的做法是分层处理:比如先做 “语义层”(像搜相似内容),再做 “元数据层”(按文档类型、权限、时间筛信息),还得验证信息对不对、跟踪哪些信息让 AI 输出更好,把给 AI 的信息当成 “可检查、可测试的正经物料”,而不是随便一段文字。
治理和信任
第二是 “治理和信任”,不只是大企业才需要。比如得能追溯 “AI 的输出是来自哪些输入”,不然出问题没法查;不同员工问同一个问题,AI 得根据权限给不同答案(比如普通员工看不到高管数据),不然会泄密或违规。
更重要的是 “人信不信 AI”—— 有人举了个例子,他老婆不用特斯拉自动驾驶,不是因为不好使,是因为不信。所以那 5% 的 AI 都设计了 “人在回路”:AI 只当助手,不自己做决定,人能改、能验证,慢慢就信了。
AI 记忆
第三是 “AI 的记忆”,不是随便存点东西。记忆分层次:个人层面(比如你喜欢表格还是图表、写作风格)、团队层面(比如常用的查询、操作手册)、公司层面(比如规章制度、历史决策)。
很多初创公司把记忆硬塞进代码里,而厉害的公司会把记忆做成 “可组合、可版本控制” 的层。但这里有个矛盾:记忆多了体验好,但太懂你又会让人觉得 “隐私被侵犯”(比如 AI 能叫出你孩子的名字推荐电影,你会不舒服)。现在还缺一个 “安全又能跨 APP 用的记忆层”,谁能做出来是个大机会。
多模型配合
第四是 “多模型配合”,不是啥都让 GPT-4 干。实际用的时候,得根据任务选模型:简单查询用本地小模型(快、便宜),要查数据库就用能转 SQL 的模型,复杂分析才用 GPT-4 这类大模型,还得有备用模型以防万一。
这就像搭积木,不是只用一块,而是把不同模型、工具组合起来,还能根据用得好不好慢慢调整选模型的逻辑。
界面设计
第五是 “界面设计”,不是啥都要聊天框。有人问 “为啥订 Uber 不用聊天,点几下就行?”
其实聊天只适合两种情况:一是你很烦躁,不想点菜单(比如客服);二是需求很复杂(比如 “找加州海边、能看见蓝天的 Airbnb”)。
真正好的设计是 “聊天开头 + GUI 收尾”:用聊天快速提需求,之后用按钮、下拉框改结果(比如把饼图换成柱状图),让用户自己选舒服的方式。
最后还说了现在缺啥、未来机会在哪,以及给创业者的 5 个灵魂拷问:
比如 “你给 AI 的信息预算是多少?”、“AI 的记忆边界在哪?”、“你能追踪输出溯源吗?”、“你用单一模型还是多模型?”、“人会不会信你的 AI 处理钱或病历?”—— 这些问题想不清楚,AI 就很难落地。
总结下来就是:想让 AI 落地,别光盯着模型多聪明,得把 “给 AI 的信息、AI 的记忆、多模型配合、人的信任、界面设计” 这些 “基本功” 做好,这些才是那 5% 的 AI 能成的关键。