一觉醒来,你的AI同事不光记得昨天的工作,还在凌晨把过去100个会话整理了一遍——删掉过时的、合并重复的、顺手总结出几条新规律。 这不是科幻小说。2026年5月6日,Anthropic在Code with Claude开发者大会上,正式发布了"做梦"功能。这是AI Agent发展史上,第一次有公司把"长期记忆"和"自我进化"做成了产品级的能力。 核心逻辑其实很简单:模仿人类睡眠时大脑做的事情。 从"会话级"到"托管级":AI Agent的形态跃迁
在说Dreaming之前,得先搞清楚这次更新的全貌。 过去我们用Claude Code、Cursor、Copilot这类编码Agent,本质上还是"会话级"的:你开一个session,它在窗口里干活,关了之后记忆清零,最多留几条手写的规则文件。 Anthropic这次做的,是把Claude从"会话级Agent"升级成"长期托管Agent": 表格 维度 旧形态 新形态 生命周期 你开则起,你关则停 长期托管在云端 记忆机制 每会话独立+手写规则 Dreaming跨会话异步整理 任务验收 模型自评 Outcomes独立评估器打分 协作方式 单Agent顺序执行 主+专家子Agent并行 计费方式 按token $0.08/session-hour+token 说白了:Anthropic不再只卖模型,开始卖"AI员工的工作时长"了。 Dreaming:让AI在"睡觉"时整理记忆
这是这次更新里最有想象力的一块。 它解决什么问题?
任何一个长期跑的Agent,都会遇到同一个老大难——上下文膨胀。 跑一周下来,同样的项目结构被不同会话重复学了50次;一个月前定的接口规范今天已经改了,但记忆里还留着旧版本;跨项目的隐性模式(比如"这个团队的PR必须带issue编号")从来没被沉淀下来。 人类靠"睡觉+REM期"做记忆巩固。Anthropic直接照搬了这个隐喻。 它怎么工作?
Dreaming是一个异步后台任务,由Agent自己决定什么时候触发。一次Dreaming会做三件事: 读取最近的会话历史(最多100个session) 生成新的"记忆库",不是简单的文本叠加,而是结构化的知识条目 执行三类合并操作:合并重复(同一类问题的多次解法→一条最佳实践)、替换过时(旧API→新API)、挖掘模式(多个session中反复出现的隐性约定) 整个过程在Anthropic的托管环境里跑,不占你的本地资源、不占你的当前会话窗口。醒来之后,新会话直接加载新的记忆库。 真实案例:月球矿车的"梦"
Anthropic在demo里做了一个非常工程师味儿的演示——让Claude当"月球矿车降落指挥官"。 6个候选着陆点,Agent要在每一个点做地形分析、燃料计算、风险评估。第一轮跑完,6个点里有2个直接坠毁,其中Site 3撞击速度398 m/s。 然后让Claude进入Dreaming阶段:梦了8分钟,消化了530万tokens的历史会话,输出了一份98行的《着陆指挥官行动手册》。 醒来之后再跑一遍——6个点全部安全着陆。 这个demo的精髓不在"月球",而在那98行Playbook。它是Agent自己从失败里总结出来的隐性知识,不是工程师手写的prompt。这才是Dreaming真正值钱的地方。 不仅仅是Dreaming:托管Agent的"三件套"
这次Anthropic实际上发布了三个能力,Dreaming是最具创新性的,另外两个同样值得关注。 Outcomes:让AI自己评判"做得好不好"
传统模式下,Agent自评质量要么靠"我觉得我做得不错",要么靠人工验收。Outcomes引入了独立评估器机制:开发者写一份评分标准(rubric),Agent产出结果后,评估器在自己的上下文窗口里打分,不受Agent推理过程影响。当结果不达标时,评估器会指出具体哪里需要改,Agent再重来一轮。 内部测试数据:docx生成准确率+8.4%,pptx生成准确率+10.1%,复杂任务成功率提升最高10个百分点。 Multi-Agent:用分工协作搞定复杂任务
当任务太复杂、一个Agent搞不定时,Multi-Agent让主Agent把工作拆成多份,交给专家子Agent并行处理。每个子Agent有自己的模型、prompt和工具,但共享文件系统,主Agent最后汇总结果。 Netflix的平台团队已经用这套架构建了一个分析Agent,能并行检查数百个构建,只把跨项目的高价值模式提取出来。 效果有多炸?法律AI平台Harvey的数据亮了
发布会上有一个关键数据:Harvey(法律AI平台)的Agent开启Dreaming后,完成率提升了约6倍。 6倍。不是10%,不是20%,是6倍。 这个数字的含金量在于:法律行业对AI输出的准确性和一致性要求极高,而且每个客户的case都是全新的。传统Agent很难跨case积累经验,但Dreaming让Agent能把"上次在这个环节踩过坑"这类隐性知识沉淀下来。 这才是"长期记忆"真正值钱的地方——不是记住你说了什么,而是记住它自己踩过什么坑。 我的判断:这是一个工程里程碑,但别神话它
看了一圈评论,有两种极端观点我都不太认同。 第一种:捧杀派——"AI要觉醒"、"Claude会做梦了" Dreaming本质上是结构化的会话后处理流程,不是什么神秘的"AI意识"。它模仿的是人类记忆巩固的功能,不是人类做梦的体验。Agent不会"梦到自己失败",只是把会话日志跑了一遍模式识别算法。 第二种:唱衰派——"不就是个总结功能吗" 低估了它的意义。传统的上下文压缩只在单会话内工作,而Dreaming是跨Agent、跨会话的。它能发现单个Agent视野里看不到的规律——比如"我们团队每次在这个环节都会犯错"的跨会话模式。 这个能力,是从"会话工具"到"工作搭档"的分水岭。 为什么这事值得持续关注?
下一波AI Agent的竞争,不会再是"谁的基模更聪明",而是谁能让AI在你的业务里越跑越懂事。 Dreaming输出的那份Playbook,本质上是只属于你公司的、AI自动沉淀的领域知识。这种资产一旦累积起来,换模型的迁移成本会很高——你积累的不是"Claude懂什么",而是"Claude在你的场景里学会了什么"。 Anthropic这次拼的全是工程,不是参数。但有时候,让正确的功能跑起来,比让更大的模型跑起来更重要。 IndieAI团队专注于AI工程实践,分享机器学习、大模型应用等领域的实战经验。 技术交流:indieai.blog.csdn.net | 版权声明:CC BY-NC-SA 4.0