Claude"做梦"了：Anthropic让AI学会自我进化的秘密一觉醒来，你的AI同事不光记得昨天的工作，还在凌晨把过

一觉醒来，你的AI同事不光记得昨天的工作，还在凌晨把过去100个会话整理了一遍——删掉过时的、合并重复的、顺手总结出几条新规律。这不是科幻小说。2026年5月6日，Anthropic在Code with Claude开发者大会上，正式发布了"做梦"功能。这是AI Agent发展史上，第一次有公司把"长期记忆"和"自我进化"做成了产品级的能力。核心逻辑其实很简单：模仿人类睡眠时大脑做的事情。从"会话级"到"托管级"：AI Agent的形态跃迁

在说Dreaming之前，得先搞清楚这次更新的全貌。过去我们用Claude Code、Cursor、Copilot这类编码Agent，本质上还是"会话级"的：你开一个session，它在窗口里干活，关了之后记忆清零，最多留几条手写的规则文件。 Anthropic这次做的，是把Claude从"会话级Agent"升级成"长期托管Agent"：表格维度旧形态新形态生命周期你开则起，你关则停长期托管在云端记忆机制每会话独立+手写规则 Dreaming跨会话异步整理任务验收模型自评 Outcomes独立评估器打分协作方式单Agent顺序执行主+专家子Agent并行计费方式按token $0.08/session-hour+token 说白了：Anthropic不再只卖模型，开始卖"AI员工的工作时长"了。 Dreaming：让AI在"睡觉"时整理记忆

这是这次更新里最有想象力的一块。它解决什么问题？

任何一个长期跑的Agent，都会遇到同一个老大难——上下文膨胀。跑一周下来，同样的项目结构被不同会话重复学了50次；一个月前定的接口规范今天已经改了，但记忆里还留着旧版本；跨项目的隐性模式(比如"这个团队的PR必须带issue编号")从来没被沉淀下来。人类靠"睡觉+REM期"做记忆巩固。Anthropic直接照搬了这个隐喻。它怎么工作？

Dreaming是一个异步后台任务，由Agent自己决定什么时候触发。一次Dreaming会做三件事：读取最近的会话历史（最多100个session）生成新的"记忆库"，不是简单的文本叠加，而是结构化的知识条目执行三类合并操作：合并重复（同一类问题的多次解法→一条最佳实践）、替换过时（旧API→新API）、挖掘模式（多个session中反复出现的隐性约定）整个过程在Anthropic的托管环境里跑，不占你的本地资源、不占你的当前会话窗口。醒来之后，新会话直接加载新的记忆库。真实案例：月球矿车的"梦"

Anthropic在demo里做了一个非常工程师味儿的演示——让Claude当"月球矿车降落指挥官"。 6个候选着陆点，Agent要在每一个点做地形分析、燃料计算、风险评估。第一轮跑完，6个点里有2个直接坠毁，其中Site 3撞击速度398 m/s。然后让Claude进入Dreaming阶段：梦了8分钟，消化了530万tokens的历史会话，输出了一份98行的《着陆指挥官行动手册》。醒来之后再跑一遍——6个点全部安全着陆。这个demo的精髓不在"月球"，而在那98行Playbook。它是Agent自己从失败里总结出来的隐性知识，不是工程师手写的prompt。这才是Dreaming真正值钱的地方。不仅仅是Dreaming：托管Agent的"三件套"

这次Anthropic实际上发布了三个能力，Dreaming是最具创新性的，另外两个同样值得关注。 Outcomes：让AI自己评判"做得好不好"

传统模式下，Agent自评质量要么靠"我觉得我做得不错"，要么靠人工验收。Outcomes引入了独立评估器机制：开发者写一份评分标准(rubric)，Agent产出结果后，评估器在自己的上下文窗口里打分，不受Agent推理过程影响。当结果不达标时，评估器会指出具体哪里需要改，Agent再重来一轮。内部测试数据：docx生成准确率+8.4%，pptx生成准确率+10.1%，复杂任务成功率提升最高10个百分点。 Multi-Agent：用分工协作搞定复杂任务

当任务太复杂、一个Agent搞不定时，Multi-Agent让主Agent把工作拆成多份，交给专家子Agent并行处理。每个子Agent有自己的模型、prompt和工具，但共享文件系统，主Agent最后汇总结果。 Netflix的平台团队已经用这套架构建了一个分析Agent，能并行检查数百个构建，只把跨项目的高价值模式提取出来。效果有多炸？法律AI平台Harvey的数据亮了

发布会上有一个关键数据：Harvey(法律AI平台)的Agent开启Dreaming后，完成率提升了约6倍。 6倍。不是10%，不是20%，是6倍。这个数字的含金量在于：法律行业对AI输出的准确性和一致性要求极高，而且每个客户的case都是全新的。传统Agent很难跨case积累经验，但Dreaming让Agent能把"上次在这个环节踩过坑"这类隐性知识沉淀下来。这才是"长期记忆"真正值钱的地方——不是记住你说了什么，而是记住它自己踩过什么坑。我的判断：这是一个工程里程碑，但别神话它

看了一圈评论，有两种极端观点我都不太认同。第一种：捧杀派——"AI要觉醒"、"Claude会做梦了" Dreaming本质上是结构化的会话后处理流程，不是什么神秘的"AI意识"。它模仿的是人类记忆巩固的功能，不是人类做梦的体验。Agent不会"梦到自己失败"，只是把会话日志跑了一遍模式识别算法。第二种：唱衰派——"不就是个总结功能吗" 低估了它的意义。传统的上下文压缩只在单会话内工作，而Dreaming是跨Agent、跨会话的。它能发现单个Agent视野里看不到的规律——比如"我们团队每次在这个环节都会犯错"的跨会话模式。这个能力，是从"会话工具"到"工作搭档"的分水岭。为什么这事值得持续关注？

下一波AI Agent的竞争，不会再是"谁的基模更聪明"，而是谁能让AI在你的业务里越跑越懂事。 Dreaming输出的那份Playbook，本质上是只属于你公司的、AI自动沉淀的领域知识。这种资产一旦累积起来，换模型的迁移成本会很高——你积累的不是"Claude懂什么"，而是"Claude在你的场景里学会了什么"。 Anthropic这次拼的全是工程，不是参数。但有时候，让正确的功能跑起来，比让更大的模型跑起来更重要。 IndieAI团队专注于AI工程实践，分享机器学习、大模型应用等领域的实战经验。技术交流：indieai.blog.csdn.net | 版权声明：CC BY-NC-SA 4.0