当被问及“AI能否记住你过去生活的具体细节”时,核心答案是:不能,准确率极低。 剑桥大学最新的ATM-Bench基准测试显示,即使是当前顶尖的AI智能体,在回答需要调用个人长期、跨格式生活记忆的问题时,准确率普遍低于40%。例如,OpenClaw的准确率仅为25.4%,而Claude Code也只有33.8%。这意味着,在十次关于你个人生活的提问中,AI有六到七次会答错。
我是地鼠,主要分享企业AI落地提效的实战经验。最近在深度调教OpenClaw这类智能体时,一个核心感受是:它们处理结构化任务很强,但一遇到需要“生活记忆”的场景,就立刻露怯。
妈妈随口一问,我瞬间卡壳。
“你上次去日本旅行帮我买的相机,现在还在保修期内吗?”
我大脑飞速运转:去年?前年?买的啥型号来着?收据放哪儿了?最后,我不得不翻箱倒柜找收据,翻遍手机相册找购买凭证,甚至去查了当时的聊天记录和邮件。
折腾半天,终于拼凑出答案。那一刻我突然意识到:我的记忆,好像不在自己脑子里了。
但更让我震惊的是,连今天最聪明的AI,面对这种“生活记忆”问题,表现可能比我还差。
你的AI助理,可能是个“健忘症患者”
想象一下,你问你的AI助理:“帮我找找我家猫Grace鬼鬼祟祟的照片和视频,我想剪个短视频。”
对人类来说,这不算难。但对今天的AI来说,这类问题远没有看上去那么简单。
剑桥团队开源了一个叫ATM-Bench的基准测试,专门用来拷问AI的“长期记忆”。他们问了一个直接的问题:当AI真正面对一个人多年真实生活数据时,它到底能不能「记住你」?
实验结果,可以说相当“惨淡”。在该测试最难的版本(ATM-Bench-Hard)上,当前非常热门的开源智能体“小龙虾”OpenClaw,准确率只有25.4%;而被许多人视为编程智能体标杆、搭载了最强模型Claude Opus 4.6的Claude Code,也只有33.8%。
至于那些专门为“记忆”设计的AI系统,准确率甚至普遍低于20%。
换句话说,你花大价钱请的AI个人助理,在回答关于你过去几年生活的具体问题时,十次里有七八次会答错。
为什么AI记不住“你”?
过去也有测试AI记忆的,但大多只考“聊天记录”。可真实世界里的“你”,远不止是聊天框里的文字。
你的生活记忆,通常分散在:
- 照片:旅行、聚会、吃饭的日常碎片。
- 视频:生日派对、孩子第一步、某个难忘的日落。
- 邮件:机票酒店预订、餐厅确认函、各种电子票据。
而且这些记忆往往横跨好几年,互相之间还对不上号。ATM-Bench测试的,就是AI能不能像一个真正的助理那样,从这些杂乱、长期、跨格式的记忆库里,准确挖出你要的东西。
测试里设计了三种“变态”难题,专门戳AI的记忆盲区:
第一关:个性化指代 —— “Grace”到底是谁? “帮我找找Grace偷偷摸摸的照片视频。” AI得先判断:Grace是你的朋友、家人,还是宠物猫?然后要在海量图片视频里识别出这个对象,最后还得理解“偷偷摸摸”这种带主观色彩的人类描述。光这一步,就难倒了一大片。
第二关:证据打架 —— 该信谁? “我最近去葡萄牙旅行住酒店花了多少钱?” 这类问题常常对应多份证据:过时的预订确认邮件,和最终结算的发票金额可能不一致。AI需要理解冲突,并判断哪条信息更新、更可信。结果,即使是目前顶尖的GPT-5.2或Opus-4.6,也经常拿着过时的预订邮件当答案。
第三关:跨模态推理 —— 看不见的线索才最致命 “我在Fancett餐厅点了什么菜?” 陷阱在于:“Fancett”这个名字只出现在邮件确认单里,而吃饭的照片本身并没有餐厅的GPS标签。 AI必须先从邮件里找到Fancett的预订信息,提取时间,锁定时间窗口,再跨到相册里找到同一时段的照片,最后从视觉内容里判断点了什么菜。少了任何一环,都答不对。
给AI配上“外挂”,为什么还是不行?
你可能想,是不是给的“工具”不够?让AI能执行代码、访问文件系统、调用搜索工具,总行了吧?
研究团队也这么想了,他们测试了当前最强的“通用智能体系统”。这类AI拥有完整的工程能力,可以自己写代码来搜索、索引、分析你的数据。
结果呢?
表现最好的Codex,准确率也只有39.7%,连及格线都够不着。 而且代价巨大:Codex为了回答这些问题,消耗了1546万个tokens(你可以理解为AI的“脑力”单位),OpenClaw也用了963万个。
即便投入海量的“脑力”和全套工具链,长期个性化记忆问答,对AI来说仍然是一个根本性难题。
工具再完善,模型再强大,也弥补不了记忆架构上的根本缺陷。今天的AI,更像一个拥有瞬时强大计算能力的“天才”,但缺少人类那种将经历编织成连贯生命故事的“长期记忆体”。
我自己在为企业部署AI数字员工时,也发现类似问题。我们总希望AI能记住所有业务细节,但现实是,它们更擅长处理“当下”的指令,而非主动调用和关联“过去”的碎片。这提醒我们,在规划AI工作流时,必须正视其记忆能力的边界。
常见问题
-
AI在ATM-Bench测试中的准确率到底有多低? 在回答需要调用个人长期生活记忆的问题时,主流AI智能体的准确率普遍低于40%。具体数据是:OpenClaw为25.4%,Claude Code为33.8%,而表现最好的Codex也仅为39.7%。
-
为什么AI记不住我的个人生活细节? 主要因为个人记忆是跨格式(照片、邮件、视频)、跨时间、且信息可能冲突的。AI在理解个性化指代、处理冲突证据和进行跨模态推理方面存在根本性缺陷。
-
给AI更强的工具能解决记忆问题吗? 根据剑桥大学的研究,即使为AI配备完整的代码执行和文件访问能力,其准确率依然很低(最高39.7%),且消耗的计算资源巨大(Codex消耗了1546万个tokens),这表明工具无法弥补记忆架构的底层缺陷。
-
这项研究对企业部署AI有什么启示? 研究提醒企业,在规划AI工作流时,必须正视其记忆能力的边界。AI擅长处理结构化、当下的任务,但不擅长主动关联和调用过去的碎片化信息,因此在设计流程时应避免过度依赖AI的长期记忆能力。
写在最后:我们离真正的“个性化AI”还有多远?
ATM-Bench的实验结果虽然“扎心”,但它指出了一个明确的方向:未来的AI,不能只满足于回答知识性问题,它必须学会在一个人数年甚至数十年的记忆长河中,准确检索、关联、推理。
当AI真正能够像人类一样,记得“去年给妈妈买的相机”,记得“Grace最喜欢躲的角落”,记得“在Fancett餐厅那道惊艳的菜”,我们离真正的“个性化AI”才会更近一步。
在那之前,也许我们不该对智能体的记忆能力期待太高。
毕竟,它们连“去年给妈妈买的相机”都记不住。OpenClaw记不住,Codex记不住,Claude Code也记不住。
你的记忆,终究还是得靠自己。
关于作者
地鼠,地鼠科技CEO,专注于企业AI落地提效与OpenClaw部署。
这篇内容更偏实操视角,重点放在如何客观看待AI工具的能力边界,避免不切实际的期待。如果你也在研究怎么把AI从“能用”变成“真好用”,尤其是在团队协作和业务流程中部署AI智能体,可以关注我,后面会继续分享更多具体配置方案。