当所有人都在卷Context Engineering的时候,Mind Lab说:该往前走一步了。
2025年,AI Agent开发圈最火的概念是什么?
毫无疑问是Context Engineering。从Manus的经验分享到Anthropic的官方指南,整个行业都在研究如何给模型塞入更好的上下文——更精准的RAG检索、更丰富的工具调用、更完善的MCP协议。
但一个尴尬的事实正在浮现:Benchmark分数一路飙升,真实任务的体验却在原地踏步。
比如,经过高度打磨的GPT-4o在情感智能和上下文感知上,往往比某些纯粹为刷分而训练的新模型表现更好。这说明,预训练的边际收益正在递减,进步不再只是「更多数据+更多算力」的事了。
刚刚,Mind Lab发布了一篇重磅研究博客,提出了一个核心论断:
AI Agent开发正处于拐点——从Context Engineering走向Context Learning。
简单说就是:别只是给模型「用」好的上下文了,要让模型「学会」上下文,把临时的增益变成永久的能力。
真正的瓶颈:模型不是不够强,是不会「长大」
Mind Lab在博客中指出了当前Agent开发的核心矛盾:
瓶颈不再是模型开箱即用有多强,而是模型能否从真实使用中持续变强。
这话乍一听像「正确的废话」,但细想很有深意。
当前主流的Agent架构已经相当成熟——Skills、MCP、多智能体协作、RAG、文件存储,应有尽有。这些架构能让我们快速利用前沿模型执行复杂任务。
但问题是:这些全是「临时增益」。
每次新查询来了,Agent都要重新检索、重新组装上下文。检索失败?Agent就像失忆了一样,从头开始。你跟它聊了一个月的项目细节,它下次还是不认识你。
Agent RL的三大支柱,最难的一根还没立起来
Mind Lab将智能体强化学习(Agentic RL)的能力分为三大支柱:
| 支柱 | 现状 | 代表 |
|---|---|---|
| 推理 | 已有成熟方案 | DeepSeek-R1、Chain-of-Thought |
| 工具使用 | 已有成熟方案 | Claude MCP、Computer Use |
| 记忆 | 还没解决 | —— |
推理和工具使用都有了清晰的技术路径和成功的商业产品。但记忆——这个最终决定用户体验的能力——仍然是硬骨头。
工作记忆(上下文窗口内的内容)不难处理。真正的摩擦在于长期记忆:用户习惯、偏好、约束、历史上下文的积累。
Mind Lab认为,真正的长期记忆必须是参数化的。LLM本身就是终极的参数化记忆引擎——它完美记住了世界的通用知识,但偏偏记不住「我」,也维护不好「我的产品」的稳定特征。
为什么长期记忆这么难训练?Mind Lab指出两个核心障碍:
1. 信用分配难题:今天的正确输出,很难追溯到几个月前学到的某个具体事实。
2. 缺乏可验证奖励:不像数学和代码——对错一目了然——记忆质量是主观的、长周期的、难以量化的。
结果就是,大多数团队只能退回到Context Engineering,靠检索来凑合。
Context Distillation:把「上下文增益」写进参数
Mind Lab提出的解法叫做Context Distillation(上下文蒸馏) 。
核心思想用一句话概括:如果Context Engineering能让模型在测试时变好,能不能把这种增益系统性地编码进模型参数,让它即使没有外部上下文也能保持这种能力?
具体怎么做?
-
纯查询生成:模型仅根据查询生成一个on-policy输出(不给上下文)
-
上下文评分:用查询+上下文(RAG结果、工具反馈、示例等)对这个输出进行token级别的打分
-
RL式更新:用这个打分信号作为奖励,对模型参数做强化学习更新
def context_distill(model, query, build_context, rl_update):
# Step 1: 纯查询生成on-policy rollout
out = model.sample(query)
# Step 2: 查询+上下文生成token级奖励
ctx = build_context(query)
r_tok = model.token_reward(query, ctx, out)
# Step 3: RL式参数更新
return rl_update(model, query, out, r_tok)
关键区别:上下文只用来打分,不作为训练输入。 这是一种on-policy的蒸馏方式,与传统的off-policy上下文蒸馏(先用上下文生成目标,再用SFT学习)有本质不同。
Context Learning:持续学习的闭环
把Context Distillation串成连续循环,就得到了Context Learning。
对每一个真实查询:模型生成输出→自我评估→更新参数。一轮接一轮,这就是经典的**策略迭代(Policy Iteration)**过程。
def context_learning(model, queries, build_context, rl_update, steps):
for _ in range(steps):
model = context_distill(model, next(queries), build_context, rl_update)
return model
这个循环之所以有效,依赖于**测试时缩放定律(Test-Time Scaling Law)**的两个维度:
-
更多推理计算:额外的测试时推理产生更好的决策和检查
-
更多信息:更丰富的上下文(RAG、工具反馈)弥补信息缺口
举个例子:一个基于RAG的记忆系统。查询A来了,系统检索到相关记忆M1-M5。模型先不看记忆生成回复,再用查询+M1...M5对自己的回复打分,更新一次参数。查询B、C接踵而至,循环重复。每一步都把临时上下文转化为参数化技能。
三个被重塑的Agent体验
Mind Lab认为,Context Learning将改变我们构建和使用AI的方式。
一、Agent开发的新分工
过去做Agent开发,需要手工设计奖励函数、反复对抗奖励黑客。
Context Learning改变了这个分工:产品经理和工程师只需要专注于构建更好的Context Engineering管线(更好的检索、工具编排、推理触发器)。这个管线自然产生学习信号,模型自动内化。
从「系统设计」到「持久能力」的路径被大幅缩短。轨迹不再是用完即弃的日志,而是可复用的成长燃料。
二、自迭代与自进化
很多现代系统已经能够反思错误、从智能体轨迹中生成可复用的技能。在Context Learning范式下,这些动态生成的技能不仅仅保存为文本文件等待未来检索——它们直接成为训练输入。
系统级进化和模型级进化被打通了。 动态发现的技能变成了稳定的参数化知识。
三、真正的个性化
真正的个性化模型一直遥不可及——因为为个体偏好定义干净的目标函数几乎不可能。
Context Learning提供了一条实际路径:构建个性化管线,检索用户特定记忆作为上下文,通过反复的on-policy更新,逐步将偏好编织进模型参数。
配合LoRA等参数高效微调技术,每个用户都可以维护一个个人LoRA适配器(100MB–1GB) ,持续更新、与用户共同进化。
Mind Lab在做什么?
Mind Lab目前正在围绕Context Learning展开广泛实验,聚焦三个方向:
-
个性化质量
-
高级参数化记忆
-
长周期编程任务
Mind Lab的核心愿景是体验智能(Experiential Intelligence) :让模型从真实用户和真实产品中持续学习。Context Learning正是闭合这个循环的关键——把临时的测试时增益转化为永久的训练时成长。
本文核心贡献者:Andrew Chen、Pony Ma。
写在最后
从Context Engineering到Context Learning,表面上只多了一个词,背后是AI Agent开发范式的根本转变。
Context Engineering问的是:怎么给模型用好上下文?
Context Learning问的是:怎么让模型学会上下文?
前者是手动喂饭,后者是教会自己吃饭。
Mind Lab认为,这是通往真正持续学习的具体一步——模型不再只是工具,而是真正「和你一起成长」的伙伴。
你觉得Context Learning能解决AI Agent的「失忆」问题吗?欢迎在评论区分享你的看法。
参考链接:
© THE END