Context Engineering已经不够用了:Mind Lab提出Context Learning,让模型真正「越用越聪明」

0 阅读7分钟

当所有人都在卷Context Engineering的时候,Mind Lab说:该往前走一步了。

2025年,AI Agent开发圈最火的概念是什么?

毫无疑问是Context Engineering。从Manus的经验分享到Anthropic的官方指南,整个行业都在研究如何给模型塞入更好的上下文——更精准的RAG检索、更丰富的工具调用、更完善的MCP协议。

但一个尴尬的事实正在浮现:Benchmark分数一路飙升,真实任务的体验却在原地踏步。

比如,经过高度打磨的GPT-4o在情感智能和上下文感知上,往往比某些纯粹为刷分而训练的新模型表现更好。这说明,预训练的边际收益正在递减,进步不再只是「更多数据+更多算力」的事了。

刚刚,Mind Lab发布了一篇重磅研究博客,提出了一个核心论断:

AI Agent开发正处于拐点——从Context Engineering走向Context Learning。

简单说就是:别只是给模型「用」好的上下文了,要让模型「学会」上下文,把临时的增益变成永久的能力。

真正的瓶颈:模型不是不够强,是不会「长大」

Mind Lab在博客中指出了当前Agent开发的核心矛盾:

瓶颈不再是模型开箱即用有多强,而是模型能否从真实使用中持续变强。

这话乍一听像「正确的废话」,但细想很有深意。

当前主流的Agent架构已经相当成熟——Skills、MCP、多智能体协作、RAG、文件存储,应有尽有。这些架构能让我们快速利用前沿模型执行复杂任务。

但问题是:这些全是「临时增益」。

每次新查询来了,Agent都要重新检索、重新组装上下文。检索失败?Agent就像失忆了一样,从头开始。你跟它聊了一个月的项目细节,它下次还是不认识你。

Agent RL的三大支柱,最难的一根还没立起来

Mind Lab将智能体强化学习(Agentic RL)的能力分为三大支柱:

支柱现状代表
推理已有成熟方案DeepSeek-R1、Chain-of-Thought
工具使用已有成熟方案Claude MCP、Computer Use
记忆还没解决——

推理和工具使用都有了清晰的技术路径和成功的商业产品。但记忆——这个最终决定用户体验的能力——仍然是硬骨头。

工作记忆(上下文窗口内的内容)不难处理。真正的摩擦在于长期记忆:用户习惯、偏好、约束、历史上下文的积累。

Mind Lab认为,真正的长期记忆必须是参数化的。LLM本身就是终极的参数化记忆引擎——它完美记住了世界的通用知识,但偏偏记不住「我」,也维护不好「我的产品」的稳定特征。

为什么长期记忆这么难训练?Mind Lab指出两个核心障碍:

1. 信用分配难题:今天的正确输出,很难追溯到几个月前学到的某个具体事实。

2. 缺乏可验证奖励:不像数学和代码——对错一目了然——记忆质量是主观的、长周期的、难以量化的。

结果就是,大多数团队只能退回到Context Engineering,靠检索来凑合。

Context Distillation:把「上下文增益」写进参数

Mind Lab提出的解法叫做Context Distillation(上下文蒸馏)

核心思想用一句话概括:如果Context Engineering能让模型在测试时变好,能不能把这种增益系统性地编码进模型参数,让它即使没有外部上下文也能保持这种能力?

具体怎么做?

  1. 纯查询生成:模型仅根据查询生成一个on-policy输出(不给上下文)

  2. 上下文评分:用查询+上下文(RAG结果、工具反馈、示例等)对这个输出进行token级别的打分

  3. RL式更新:用这个打分信号作为奖励,对模型参数做强化学习更新

def context_distill(model, query, build_context, rl_update):
    # Step 1: 纯查询生成on-policy rollout
    out = model.sample(query)

    # Step 2: 查询+上下文生成token级奖励
    ctx = build_context(query)
    r_tok = model.token_reward(query, ctx, out)

    # Step 3: RL式参数更新
    return rl_update(model, query, out, r_tok)

关键区别:上下文只用来打分,不作为训练输入。 这是一种on-policy的蒸馏方式,与传统的off-policy上下文蒸馏(先用上下文生成目标,再用SFT学习)有本质不同。

Context Learning:持续学习的闭环

把Context Distillation串成连续循环,就得到了Context Learning

对每一个真实查询:模型生成输出→自我评估→更新参数。一轮接一轮,这就是经典的**策略迭代(Policy Iteration)**过程。

def context_learning(model, queries, build_context, rl_update, steps):
    for _ in range(steps):
        model = context_distill(model, next(queries), build_context, rl_update)
    return model

这个循环之所以有效,依赖于**测试时缩放定律(Test-Time Scaling Law)**的两个维度:

  • 更多推理计算:额外的测试时推理产生更好的决策和检查

  • 更多信息:更丰富的上下文(RAG、工具反馈)弥补信息缺口

举个例子:一个基于RAG的记忆系统。查询A来了,系统检索到相关记忆M1-M5。模型先不看记忆生成回复,再用查询+M1...M5对自己的回复打分,更新一次参数。查询B、C接踵而至,循环重复。每一步都把临时上下文转化为参数化技能。

三个被重塑的Agent体验

Mind Lab认为,Context Learning将改变我们构建和使用AI的方式。

一、Agent开发的新分工

过去做Agent开发,需要手工设计奖励函数、反复对抗奖励黑客。

Context Learning改变了这个分工:产品经理和工程师只需要专注于构建更好的Context Engineering管线(更好的检索、工具编排、推理触发器)。这个管线自然产生学习信号,模型自动内化。

从「系统设计」到「持久能力」的路径被大幅缩短。轨迹不再是用完即弃的日志,而是可复用的成长燃料。

二、自迭代与自进化

很多现代系统已经能够反思错误、从智能体轨迹中生成可复用的技能。在Context Learning范式下,这些动态生成的技能不仅仅保存为文本文件等待未来检索——它们直接成为训练输入。

系统级进化和模型级进化被打通了。 动态发现的技能变成了稳定的参数化知识。

三、真正的个性化

真正的个性化模型一直遥不可及——因为为个体偏好定义干净的目标函数几乎不可能。

Context Learning提供了一条实际路径:构建个性化管线,检索用户特定记忆作为上下文,通过反复的on-policy更新,逐步将偏好编织进模型参数。

配合LoRA等参数高效微调技术,每个用户都可以维护一个个人LoRA适配器(100MB–1GB) ,持续更新、与用户共同进化。

Mind Lab在做什么?

Mind Lab目前正在围绕Context Learning展开广泛实验,聚焦三个方向:

  • 个性化质量

  • 高级参数化记忆

  • 长周期编程任务

Mind Lab的核心愿景是体验智能(Experiential Intelligence) :让模型从真实用户和真实产品中持续学习。Context Learning正是闭合这个循环的关键——把临时的测试时增益转化为永久的训练时成长。

本文核心贡献者:Andrew Chen、Pony Ma。

写在最后

从Context Engineering到Context Learning,表面上只多了一个词,背后是AI Agent开发范式的根本转变。

Context Engineering问的是:怎么给模型用好上下文?

Context Learning问的是:怎么让模型学会上下文?

前者是手动喂饭,后者是教会自己吃饭。

Mind Lab认为,这是通往真正持续学习的具体一步——模型不再只是工具,而是真正「和你一起成长」的伙伴。

你觉得Context Learning能解决AI Agent的「失忆」问题吗?欢迎在评论区分享你的看法。

博客原文:macaron.im/mindlab/res…

参考链接:

© THE END