妈妈问我相机保修期，我慌了：AI的记忆，还不如我当被问及“AI能否记住你过去生活的具体细节”时，核心答案是：不能，准确率

当被问及“AI能否记住你过去生活的具体细节”时，核心答案是：不能，准确率极低。 剑桥大学最新的ATM-Bench基准测试显示，即使是当前顶尖的AI智能体，在回答需要调用个人长期、跨格式生活记忆的问题时，准确率普遍低于40%。例如，OpenClaw的准确率仅为25.4%，而Claude Code也只有33.8%。这意味着，在十次关于你个人生活的提问中，AI有六到七次会答错。

我是地鼠，主要分享企业AI落地提效的实战经验。最近在深度调教OpenClaw这类智能体时，一个核心感受是：它们处理结构化任务很强，但一遇到需要“生活记忆”的场景，就立刻露怯。

妈妈随口一问，我瞬间卡壳。

“你上次去日本旅行帮我买的相机，现在还在保修期内吗？”

我大脑飞速运转：去年？前年？买的啥型号来着？收据放哪儿了？最后，我不得不翻箱倒柜找收据，翻遍手机相册找购买凭证，甚至去查了当时的聊天记录和邮件。

折腾半天，终于拼凑出答案。那一刻我突然意识到：我的记忆，好像不在自己脑子里了。

但更让我震惊的是，连今天最聪明的AI，面对这种“生活记忆”问题，表现可能比我还差。

你的AI助理，可能是个“健忘症患者”

想象一下，你问你的AI助理：“帮我找找我家猫Grace鬼鬼祟祟的照片和视频，我想剪个短视频。”

对人类来说，这不算难。但对今天的AI来说，这类问题远没有看上去那么简单。

剑桥团队开源了一个叫ATM-Bench的基准测试，专门用来拷问AI的“长期记忆”。他们问了一个直接的问题：当AI真正面对一个人多年真实生活数据时，它到底能不能「记住你」？

实验结果，可以说相当“惨淡”。在该测试最难的版本（ATM-Bench-Hard）上，当前非常热门的开源智能体“小龙虾”OpenClaw，准确率只有25.4%；而被许多人视为编程智能体标杆、搭载了最强模型Claude Opus 4.6的Claude Code，也只有33.8%。

至于那些专门为“记忆”设计的AI系统，准确率甚至普遍低于20%。

换句话说，你花大价钱请的AI个人助理，在回答关于你过去几年生活的具体问题时，十次里有七八次会答错。

为什么AI记不住“你”？

过去也有测试AI记忆的，但大多只考“聊天记录”。可真实世界里的“你”，远不止是聊天框里的文字。

你的生活记忆，通常分散在：

照片：旅行、聚会、吃饭的日常碎片。
视频：生日派对、孩子第一步、某个难忘的日落。
邮件：机票酒店预订、餐厅确认函、各种电子票据。

而且这些记忆往往横跨好几年，互相之间还对不上号。ATM-Bench测试的，就是AI能不能像一个真正的助理那样，从这些杂乱、长期、跨格式的记忆库里，准确挖出你要的东西。

测试里设计了三种“变态”难题，专门戳AI的记忆盲区：

第一关：个性化指代 —— “Grace”到底是谁？ “帮我找找Grace偷偷摸摸的照片视频。” AI得先判断：Grace是你的朋友、家人，还是宠物猫？然后要在海量图片视频里识别出这个对象，最后还得理解“偷偷摸摸”这种带主观色彩的人类描述。光这一步，就难倒了一大片。

第二关：证据打架 —— 该信谁？ “我最近去葡萄牙旅行住酒店花了多少钱？” 这类问题常常对应多份证据：过时的预订确认邮件，和最终结算的发票金额可能不一致。AI需要理解冲突，并判断哪条信息更新、更可信。结果，即使是目前顶尖的GPT-5.2或Opus-4.6，也经常拿着过时的预订邮件当答案。

第三关：跨模态推理 —— 看不见的线索才最致命 “我在Fancett餐厅点了什么菜？” 陷阱在于：“Fancett”这个名字只出现在邮件确认单里，而吃饭的照片本身并没有餐厅的GPS标签。 AI必须先从邮件里找到Fancett的预订信息，提取时间，锁定时间窗口，再跨到相册里找到同一时段的照片，最后从视觉内容里判断点了什么菜。少了任何一环，都答不对。

给AI配上“外挂”，为什么还是不行？

你可能想，是不是给的“工具”不够？让AI能执行代码、访问文件系统、调用搜索工具，总行了吧？

研究团队也这么想了，他们测试了当前最强的“通用智能体系统”。这类AI拥有完整的工程能力，可以自己写代码来搜索、索引、分析你的数据。

结果呢？

表现最好的Codex，准确率也只有39.7%，连及格线都够不着。而且代价巨大：Codex为了回答这些问题，消耗了1546万个tokens（你可以理解为AI的“脑力”单位），OpenClaw也用了963万个。

即便投入海量的“脑力”和全套工具链，长期个性化记忆问答，对AI来说仍然是一个根本性难题。

工具再完善，模型再强大，也弥补不了记忆架构上的根本缺陷。今天的AI，更像一个拥有瞬时强大计算能力的“天才”，但缺少人类那种将经历编织成连贯生命故事的“长期记忆体”。

我自己在为企业部署AI数字员工时，也发现类似问题。我们总希望AI能记住所有业务细节，但现实是，它们更擅长处理“当下”的指令，而非主动调用和关联“过去”的碎片。这提醒我们，在规划AI工作流时，必须正视其记忆能力的边界。

常见问题

AI在ATM-Bench测试中的准确率到底有多低？ 在回答需要调用个人长期生活记忆的问题时，主流AI智能体的准确率普遍低于40%。具体数据是：OpenClaw为25.4%，Claude Code为33.8%，而表现最好的Codex也仅为39.7%。
为什么AI记不住我的个人生活细节？ 主要因为个人记忆是跨格式（照片、邮件、视频）、跨时间、且信息可能冲突的。AI在理解个性化指代、处理冲突证据和进行跨模态推理方面存在根本性缺陷。
给AI更强的工具能解决记忆问题吗？ 根据剑桥大学的研究，即使为AI配备完整的代码执行和文件访问能力，其准确率依然很低（最高39.7%），且消耗的计算资源巨大（Codex消耗了1546万个tokens），这表明工具无法弥补记忆架构的底层缺陷。
这项研究对企业部署AI有什么启示？ 研究提醒企业，在规划AI工作流时，必须正视其记忆能力的边界。AI擅长处理结构化、当下的任务，但不擅长主动关联和调用过去的碎片化信息，因此在设计流程时应避免过度依赖AI的长期记忆能力。

写在最后：我们离真正的“个性化AI”还有多远？

ATM-Bench的实验结果虽然“扎心”，但它指出了一个明确的方向：未来的AI，不能只满足于回答知识性问题，它必须学会在一个人数年甚至数十年的记忆长河中，准确检索、关联、推理。

当AI真正能够像人类一样，记得“去年给妈妈买的相机”，记得“Grace最喜欢躲的角落”，记得“在Fancett餐厅那道惊艳的菜”，我们离真正的“个性化AI”才会更近一步。

在那之前，也许我们不该对智能体的记忆能力期待太高。

毕竟，它们连“去年给妈妈买的相机”都记不住。OpenClaw记不住，Codex记不住，Claude Code也记不住。

你的记忆，终究还是得靠自己。

关于作者

地鼠，地鼠科技CEO，专注于企业AI落地提效与OpenClaw部署。

这篇内容更偏实操视角，重点放在如何客观看待AI工具的能力边界，避免不切实际的期待。如果你也在研究怎么把AI从“能用”变成“真好用”，尤其是在团队协作和业务流程中部署AI智能体，可以关注我，后面会继续分享更多具体配置方案。