为什么如今上下文比模型本身更有价值
现在是12月23日,你正焦急地向AI助手询问给妻子准备的最后一刻圣诞礼物建议。
三周前,你花了20分钟仔细说明:她痴迷可持续时尚,刚开始攀岩,讨厌任何浪费的东西。AI认真倾听,还问了些有深度的问题。你当时心想:“终于有懂我的技术了。”
今天你问:“我该给妻子买什么圣诞礼物?”
AI回答:“要不考虑一款精美的真皮手提包和一套豪华SPA套餐?”
你在逗我吗?
既不环保,也和攀岩无关,完全是通用模板。这个AI跟1990年代那种刻板印象生成器没两样,随便推荐鲜花和巧克力。
让人愤怒的地方在于:这个模型拥有128,000个token的记忆容量。你三周前的对话才2,000个token。它的空间足足是所需的64倍。这个作为有史以来最先进AI系统之一的大语言模型,完全有能力记住。
那它为什么记不住?
因为没人把记忆系统架构好。模型很聪明,但上下文工程还停留在业余水平。
还有一件没人告诉你的事:**到2025年,模型已经不再重要了。**GPT‑4、Claude、Gemini——它们都足够好用。真正关键的是,有没有人做出一个真正能用的记忆系统,而不是随便拼凑一个聊完就忘的聊天机器人。
大多数AI助手都属于第二类。它们是**对话失忆症患者,**前30秒表现惊艳,一旦需要连续性,就彻底没用。
这篇文章会解释为什么会出现这种情况,更重要的是,顶尖AI系统是如何解决这个问题的。
五年时间,AI记忆构建方式发生了五次巨大转变。我们从把指令塞进狭小提示词,一路走到打造媲美人类认知的记忆系统。如今有些AI助手能记住你去年圣诞节的礼物偏好,另一些却连上周二说过什么都想不起来。
区别不在模型,而在**上下文工程。**你即将明白,为什么它在生产级AI中比一切都重要。
我们开始。
上下文工程在五年间历经了五个截然不同的阶段:
**第一阶段(2020–2022):提示词工程(Prompt Engineering)**一切都塞进2,000–4,000 token的提示词里。我们手写指令、示例和规则。在演示中效果不错,但在生产环境中,一旦上下文窗口溢出、模型在调用间隙遗忘所有信息,就会直接崩溃。
**第二阶段(2022–2023):检索增强生成(RAG)**通过向量搜索接入外部知识。RAG通过动态检索相关文档解决了“模型不知道”的问题,但也带来了新问题:无关上下文过多、无对话记忆、多跳推理脆弱。
第三阶段(2023–2024):结构化上下文工程上下文变成架构。我们将指令、记忆、数据和工具拆分为独立层级。上下文不再是文本,而是带有智能筛选、排序和组装的编译流水线。Token成本下降75%–90%。
第四阶段(2024–2025):智能体记忆系统通过工具调用实现自我编辑记忆。模型开始管理自己的上下文:决定记住什么、检索什么、何时压缩、何时遗忘。上下文从被动输入转变为主动状态管理。
第五阶段(2025→):作为认知架构的上下文模型可替换,上下文系统才是产品。记忆架构、上下文生命周期管理、多智能体协同,如今比选择哪种模型更能定义系统能力。
第一阶段:提示词工程(2020–2022)
2020年GPT‑3问世时,它就像魔法一样。 你问它问题,它就能回答;你给它看几个例子,它就能学会模式。整个AI社区花了数月时间发现:用恰当的词语、按正确的顺序,就能从1750亿参数的语言模型中诱导出极其复杂的行为。
这就是**提示词工程时代:**通过精心设计输入文本获得理想输出的艺术。你想让模型知道、理解或遵守的一切,都必须塞进这个输入里。指令、示例、上下文、约束——所有内容都被塞进如今看来小得可笑的上下文窗口。
GPT‑3只给了你 **2048个token,**大约1500个单词,差不多一页单倍行距文本。
-
想加入示例?每个要200 token。
-
需要保留对话历史?每一轮交互都在消耗额度。
-
等你写完系统指令、加完几个示例,留给真实用户输入和上下文的token可能只剩500。
提示词工程师成了手艺人。我们总结出有效的模式:
-
少样本学习:先给模型看三个例子,再让它做类似任务;
-
思维链提示:用“让我们仔细一步步思考”这类表述鼓励分步推理;
-
指令调优:用“你是一名擅长……的专业助手”设定角色。
社区像分享食谱一样共享提示词模板,每一个都经过反复调试。
简单提示词流程(作者绘制)
这种方法在简单、独立的任务中效果惊人,但**每次交互都是全新开始。**模型在调用之间不会保留任何信息。如果用户提出追问,你必须手动把整段对话历史拼接到下一个提示词里。如果需要更新信息,你必须在每次请求中复制粘贴。
模型的知识冻结在训练截止日期,不重新训练整个模型就无法注入新事实——这要花费数百万美元和数周算力。
生产环境中的缺陷很快暴露。多轮对话只需十几轮就会耗尽上下文窗口。重复指令带来成本线性上升——每次你告诉模型“你是法律分析专家”,都要再为这些token付费。行为非常脆弱,提示词中改一个词就可能大幅改变回答。更关键的是,**没有机制处理训练中从未见过的知识:**你公司的内部文档、昨天的新闻、训练语料中不存在的领域信息。
我们学会了跟语言模型对话,但还没学会给它们记忆、外部知识,以及管理超出固定窗口的上下文的能力。模型很惊艳,但本质上受限:它只能用塞进2000 token盒子里的东西工作。
这种限制推动了下一次演进。如果模型无法知道一切,我们想,也许它们不需要知道一切。它们只需要知道去哪里找。
GPT‑3 的局限
第二阶段:RAG——检索增强生成(2022–2023)
现在回头看,这个解决方案显而易见:如果语言模型无法知道一切,就给它们接入外部知识库。让它们按需搜索、检索、引用信息,而不是在训练时记住一切。
“检索增强生成”一词出现在2020年的一篇论文中,但这套方法在2022–2023年大规模落地生产系统。时机恰到好处:向量数据库成熟,嵌入模型提升,纯提示词工程的局限在做真实应用的人眼中已经痛到极致。
RAG的突破在于简洁优雅: 把你的知识库——文档、论文、客服工单、任何领域重要知识——切分成块; 用嵌入模型把每块转成数值向量; 把这些向量存在专为相似度搜索优化的专用数据库里; 当用户提问时,把问题转成向量,找到最相似的文本块,把这些块和原始查询一起塞进模型提示词。
结果是颠覆性的。 2022年DeepMind的RETRO系统证明:一个75亿参数的模型,通过从海量语料中检索相关文本,性能可以匹敌1750亿参数的GPT‑3。效率提升惊人:只需给小模型外部知识,就能用1/25的参数达到同等效果。Meta的Atlas系统显示:只需64个训练样本+检索,就能在复杂问答任务上达到42.4%准确率——超过没有检索、大50倍的模型。
对生产系统而言,RAG解决了关键问题:
-
模型可以访问训练截止后发布的信息;
-
无需昂贵微调,就能使用公司内部文档;
-
模型可以引用来源,给用户透明度和信任感;
-
更新知识库只需往向量库加新文档,不需要数百万美元的训练。
简单 RAG 架构(作者绘制)
但RAG很快也暴露了自己的问题。
**第一个问题:检索质量决定一切。**如果相似度搜索返回无关块,模型就只能基于垃圾信息生成。相似度≠相关性。两段文本语义相似,但其中一个未必能回答问题。早期RAG系统会一次性检索10或20个块全部丢进上下文,指望里面有用的信息。这既浪费token,又常让模型被矛盾或无关信息搞晕。
**第二个问题:RAG仍然是无状态的。**每次查询都触发全新检索。系统不记得之前检索过什么,不理解对话流。如果用户追问“那另一种方法呢?”,RAG系统记不住三轮前讨论的是哪种方法。你仍然要手动管理对话历史,而现在历史还要和检索块争夺宝贵的上下文空间。
**第三个问题:朴素RAG难以处理复杂推理。**多跳问题——“找到文档X的作者,再找他们的其他发表,再总结共同主题”——需要链式多次检索。但标准RAG没有这种机制,只检索一次,生成一次答案,就结束。
到2023年末,局限已经非常清晰:RAG证明了外部知识必不可少,但架构本质上是被动、无结构的。模型仍然没有自主权决定检索什么、何时检索、如何组织检索信息。工程师开始问更难的问题:不只是“如何给模型知识入口”,而是**“如何架构围绕模型的整个上下文?”**
RAG 架构局限(作者绘制)
答案需要把上下文看作比文本在流水线中流动更高级的东西。 它需要架构。
第三阶段:上下文工程(2023–2024)
2024年发生了一次转变。工程团队的讨论从“如何写出更好的提示词?”变成“如何架构上下文系统?”行业观察者注意到了这一点。Gartner在2024年7月宣称:“上下文工程已成主流,提示词工程已过时。”Andrej Karpathy将其描述为“为下一步行动,在上下文窗口里填入刚刚好信息的精细艺术与科学”。
这次转变反映了一个根本认知:上下文不是文本。上下文是架构。
在此之前,我们把上下文窗口当成文本编辑器——用来粘贴指令、示例、对话历史、检索文档。更关键的问题一直被忽略:如果我们像设计软件系统一样设计上下文呢?用分层、模块化、接口和显式数据流?
上下文工程作为一门正式学科,形成了清晰原则。
1. 关注点分离
上下文不是一大块文本,而是由不同类型信息组成,各有目的、需要不同管理策略:
- 指令定义行为 系统提示、行为准则、任务说明,很少变动,应像代码一样版本化。
- 记忆捕获状态 智能体对用户、历史交互、进行中任务的了解,持续进化,必须被更新而非重写。
- 知识代表外部信息 检索文档、数据库结果、API响应,按需动态拉取,不预加载。
- 工具定义能力 模型可调用的函数与API,需要清晰接口和使用示例。
- 元数据提供结构 时间戳、来源、置信度、优先级。
把这些拆分成独立层,就可以分别优化:指令层可以精细版本管理和A/B测试;记忆层可以实现复杂更新与冲突解决;知识层可以混用多种检索策略——向量搜索做语义查询、关键词搜索做精确匹配、图遍历做关系查询;工具层可以独立处理认证、限流、错误。
上下文工程框架
2. 智能筛选
问题从“我们能塞下什么?”变成“我们应该包含什么?”。不是所有上下文都同等重要。有些信息对当前任务至关重要,有些只是辅助,有些是历史噪音,反而会降低性能。
这需要超越简单相似度的排序机制:
-
相关性:
上下文与当前查询的匹配程度;
-
重要性:
信息本身的权重(用户核心偏好远重于数月前随口一句);
-
时效性:
新信息通常优于旧信息,但并非绝对。
上下文工程系统会实现融合这些因素的打分函数。 一段关于用户偏好的记忆可能重要性、相关性很高,但时效性低;刚检索的文档时效性、相关性高,但重要性低。系统可以对所有可用上下文排序,选出在token预算内的前N项。
3. 动态组装
发给模型的提示词不再手写,而是由组件编译而成。
想象一条上下文流水线:
-
用户查询进入系统;
-
流水线先从长期存储检索相关记忆;
-
根据所需能力获取合适的工具定义;
-
选择相关对话历史,优先近期和建立重要背景的内容;
-
从向量库或数据库拉取外部知识;
-
每个组件被排序、过滤、格式化;
-
最后拼装成结构化提示词,清晰划分:系统指令、检索知识、对话历史、可用工具。
这种编译方式意义深远:
-
可以A/B测试不同组装策略,不用改底层数据;
-
可以上下文缓存,跨请求复用昂贵生成部分;
-
可以逐段调试,看清选了什么、为什么选;
-
最重要的是:可以埋点监控,衡量哪些上下文带来哪些结果,持续优化。
4. 渐进式披露
不是所有上下文都要立刻加载,可以按访问层级分级:
-
核心上下文:
始终加载——系统指令、当前任务、关键事实,约500–2000 token;
-
条件上下文:
按需加载——相关RAG文档、对话历史、工具定义,约20,000–50,000 token;
-
按需上下文:
仅显式需要时拉取——深度归档记忆、完整文档、海量搜索结果,可达百万token,但通过搜索接口选择性访问,不批量加载。
上下文架构分层
但仍有一个关键局限:上下文工程系统本身是被动的。压缩、检索、遗忘仍然由人决定。模型只是上下文的消费者,不是管理者。工程师配置流水线、设定打分函数、确定筛选策略,模型只接收流水线给的东西。
下一次演进会彻底翻转这种关系: 如果模型可以自己管理上下文呢? 如果它能决定记住什么、检索什么、何时压缩、何时遗忘呢?
第四阶段:智能体记忆与自我编辑上下文(2024–2025)
大语言模型本质是无状态的。它们处理输入、生成输出,然后忘记一切。除非你明确把之前对话放进下一个提示词,否则模型对之前内容毫无记忆。这个架构现实一直是我们绕开的约束——直到研究者提出一个不同问题:如果我们给模型管理自己记忆的工具呢?
这个洞见来自一个意想不到的类比:**操作系统。**传统OS用两层架构管理内存:
-
虚拟内存:
所有可用存储,理论无限;
-
物理内存:
CPU实际可用的RAM,有限且宝贵。
操作系统不断在两层之间移动数据,把需要的载入RAM,不需要的换出。CPU不直接管理,OS透明处理。
如果我们用同样方式对待LLM?
-
虚拟上下文:
智能体可能需要的一切——完整对话、归档文档、学到的事实、历史任务结果;
-
物理上下文:
真实上下文窗口(GPT‑4是128k,Claude是200k),必然有限。
LLM可以充当**内存管理器,**决定把什么载入有限窗口、什么存在外部存储。
这需要一次根本转变: 智能体不再被动接收工程师整理好的上下文,而是**通过工具调用主动管理上下文。**模型会拥有 memory_write 存储、memory_read 检索、memory_update 修改、memory_delete 遗忘等函数。智能体自己决定什么值得记住。
最终架构把记忆分成不同层级,各有目的与约束。
记忆增强 LLM 层级结构
核心记忆
永远加载在上下文窗口中,是智能体的**即时意识:**系统指令、当前任务、必须记住的关键事实。体积很小(500–2000 token),因为每次调用都占用宝贵窗口。核心记忆的修改是显式、慎重的,通常通过函数调用,让智能体判定某事重要到值得留在即时感知中。
工作记忆
存放当前对话缓冲区和中间推理:近期消息、工具调用结果、计算草稿、当前任务所需内容。约5000–20000 token,随新信息到来自然循环。工作记忆自动管理:缓冲区满时,最旧内容要么压缩进情景记忆,要么丢弃。
情景记忆
存储具体过去事件:历史对话、任务结果、用户交互。与工作记忆不同,情景记忆结构化、可索引。每个事件带元数据——时间戳、参与者、结果、提到的关键实体。存在外部存储,相关时通过搜索拉回。例如智能体可以检索“最近三次讨论用户项目截止日期的记录”。
语义记忆
捕获长期知识:关于用户的事实、习得模式、偏好、领域知识。是陈述性信息:“用户更喜欢Python而非JS”“项目评审每周二”“测试环境需要VPN”。通常存在知识图谱、键值库或专用向量库,为不同查询模式优化。
归档记忆
用作完整历史的深度存储:完整对话日志、整篇文档、完整代码库。这一层是**按需搜索,**绝不批量加载。当智能体需要归档内容时,会构造搜索查询,只拉取需要的特定片段。
自我编辑记忆的执行循环非常清晰:
-
用户消息到达;
-
智能体读取核心记忆与工作记忆(窗口内即时可用内容);
-
推理:我已有全部信息,还是需要检索?
-
如需检索,调用
memory_read,相关记忆载入工作记忆; -
处理信息,生成回答;
-
再次推理:这次交互有值得长期记住的内容吗?
-
如果有,调用
memory_write存储关键事实,然后更新自身状态。
模型通过**对未来有用性的学习判断,**而不是硬编码规则,来决定记住与遗忘。
多样实现路径
Letta(原名MemGPT) 直接受OS内存管理启发。智能体通过函数调用主动决定上下文保留内容,在衡量长对话理解的LoCoMo基准上达到74%准确率。核心创新:智能体显式管理记忆层级,知道何时把信息从归档提升到工作记忆,何时放回存储。
Mem0 采用两阶段流水线:提取 + 整合。提取阶段,LLM分析每轮新对话,识别值得存储的事实;整合阶段,系统去重、解决冲突、更新已有知识。它使用混合存储:向量库做语义搜索,图数据库做关系查询,键值库做快速事实读取。相比OpenAI内存实现准确率高26%,比全上下文方案快91%,通过只加载相关记忆而非整段对话节省90% token成本。
LangMem(LangChain团队推出)将记忆明确分为三类:
-
语义记忆:事实与概念;
-
过程记忆:操作知识与工作流;
-
情景记忆:具体过去经历。
框架聚焦记忆随时间的演化:如何更新、置信度如何衰减、矛盾如何解决。
核心难题:自我编辑记忆的技术挑战
决定记住什么需要判断力。 不是每句话都值得存储。智能体必须从对话中提取关键事实,过滤客套、跑题、无关细节。当前系统用LLM自身做提取,本质是在问:“从这段对话中,我该存哪些事实供未来参考?”提取质量决定整个记忆系统质量。
决定遗忘什么同样关键。 记忆预算有限——无论用token、存储成本还是检索延迟衡量。旧信息可能过时,用户会改变偏好,事实会被推翻。系统采用多种遗忘策略:重要性随时间衰减、基于置信度修剪、用户显式修正使旧记忆失效。2025年的研究系统MemAgent通过强化学习训练压缩策略,能处理350万token,在把上下文压缩数个数量级的同时,性能下降不到5%。
处理记忆冲突非常棘手。 如果用户1月说“我住在巴黎”,3月说“我住在伦敦”,智能体该记住什么?策略各异:
-
基于时间戳(保留最新);
-
基于置信度(保留语气更肯定的);
-
显式冲突追踪(两条都记,带时间戳,关键时让智能体询问澄清)。
选错就会输出自信却错误的信息。
不同应用中的记忆模式
-
基于反思的记忆
(如MemOrb):存储结构化反思,而非原始对话。完成任务后,智能体生成反思:我学到了什么对下次有用?这些反思比转录更紧凑、更可执行,尤其适合在经验中提升的智能体。
-
基于图的记忆
(如Mem0的图版本):用实体与关系表示信息,支持多跳推理——“Alice的老板最喜欢哪家餐厅?”纯向量搜索难以高效处理,图记忆擅长时序与关系查询,但构建和维护更复杂。
-
基于文件系统的记忆
效果意外地好。Letta把记忆当成文件,智能体迭代搜索。不依赖完美检索,而是可以查询、看结果、 refine、再搜索——模仿人类查文档的方式。这个简单模式达到74%准确率,超过更复杂图系统的68.5%,说明智能体在搜索中的自主权比存储复杂度更重要。
**自我编辑记忆系统带来的突破是质变,而非量变。上下文不再是工程师拼装的静态输入,而是智能体自己管理的动态状态。**智能体不再是被动接收外部系统投喂的上下文,而是主动决定什么信息重要、什么该保留、什么可遗忘。
自我编辑记忆执行循环
这次转变解锁了全新能力:
-
智能体可以在跨天、跨周的会话中保持一致身份;
-
可以通过存储错误反思,在类似场景中吸取教训;
-
可以逐步积累用户信息实现个性化,不需要显式配置;
-
可以处理跨会话任务,在中断后保持状态,无需人工手动重建上下文。
自我编辑记忆转变解锁新能力
但架构仍有一个根本局限:内存管理仍然是任务无关的。同一套记忆系统服务所有场景,智能体用通用工具和策略管理上下文。下一阶段会意识到:上下文不只是被管理,而是被设计成定义智能体认知架构的系统。
第五阶段:作为认知架构的上下文(2025→)
到2025年,讨论已经彻底转变。搭建生产级AI的团队不再把“该用哪个模型?”当作首要问题。GPT‑5、Claude、Gemini在常规任务上都表现强劲。模型已经变成**商品,**通过标准化API可互换。
真正重要的问题变成:“我们该如何架构上下文系统?”
这次转变来自生产部署中血的教训:
-
模型失败已经相对少见;
-
现代LLM很好地遵循指令、生成连贯文本、可靠推理;
-
但**上下文失败依然泛滥:**忘记关键信息、检索文档互相矛盾、记忆系统给出无关事实、漏掉关键内容、工作记忆溢出导致丢失重要状态。
正如一位工程负责人所说:如今大多数智能体失败不是模型失败,而是上下文失败。
上下文工程已经从战术问题,升级为需要与关键软件架构同等严谨的系统工程学科。
上下文不再是递给模型的文本——它是通过显式转换流水线构建的编译产物。工程问题从“我的提示词该写什么?”变成“我的上下文编译流水线是什么?” 就像软件工程师不手写机器码,AI工程师也越来越不手写提示词,而是设计从结构化组件生成提示词的系统。
转换通过流水线中命名、有序的处理器完成:一个注入对话历史,一个做检索,一个做相关性过滤,一个压缩冗长内容。每个处理器按定义方式改造上下文,你可以在阶段之间检查,精确知道模型会收到什么。这是**系统工程,**不是提示词技巧。
上下文窗口容量有限,管理这种约束需要像在资源受限系统中管理内存一样谨慎。GPT‑4o是128k token,Claude 3.5 Sonnet是200k,Gemini 2.0 Flash到100万。这些数字听起来很大,但一上生产就不够用:30轮详细对话消耗20k,检索文档加30k,完整工具定义10k,语义记忆检索15k。200k窗口在模型开始推理前就用掉75k。
实际限制比理论最大值更紧:
-
成本随token线性上升;
-
延迟随上下文增大上升;
-
最关键:注意力稀释会降低性能——相关信息埋在大上下文里,模型表现明显不如只含相关信息的小上下文。
**上下文预算管理成为核心工程问题:**给定X token容量,什么信息能最大化任务性能?策略类似操作系统内存管理:
-
压缩:
总结冗长内容、提取关键事实、去冗余;
-
优先级:
融合相关性、重要性、时效性排序,确保关键上下文优先加载;
-
懒加载:
按需拉取,不预加载,仅在智能体显式请求时拉归档记忆;
-
作用域:
给子智能体最小化上下文,避免上下文污染。
Anthropic的多智能体研究实证证明:**多个专用子智能体 + 隔离聚焦上下文 > 单个超大上下文全能智能体。**更小的上下文让每个智能体专注窄领域任务,不受干扰。
上下文有生命周期,每一步都需要显式管理:
-
获取:
从用户输入、工具结果、检索文档、环境观察进入;
-
处理:
提取关键事实、校验过滤幻觉、冲突解决、补充元数据;
-
存储:
决定存去哪里——短期放窗口,长期放外部库,归档放冷存储;
-
检索:
按查询类型选择策略——语义搜索、时序搜索、实体搜索;
-
衰减:
实现遗忘——不是所有信息永久保留,置信度随时间衰减,过期矛盾信息被修剪。
上下文生命周期
这个生命周期类似传统系统的数据管理,需要同等工程严谨:阶段间清晰接口、显式错误处理、转换点可观测、效果度量指标。
**多智能体系统通过共享状态管理带来额外复杂度。**上下文必须在智能体间精心编排,注意隔离与共享:
-
每个智能体维护自己的工作记忆,避免上下文污染;
-
但需要访问公共语义记忆(共享事实)和全局状态(任务状态、目标、约束);
-
智能体间交接需要显式上下文摘要:A完成子任务后,传给B压缩摘要,而不是让B处理A的全部历史。
多智能体上下文协同
研究界已经发现上下文工程的若干前沿问题:
ACE(智能体上下文工程) 在2025年10月论文中提出,把上下文当作不断演化的行动手册,而非静态提示词。系统通过生成、反思、整理的模块化流程积累、精炼、组织策略。结构化增量更新避免上下文坍塌——反复重写逐渐侵蚀重要细节。ACE在智能体基准上提升10.6%,领域任务提升8.6%,且无需标注监督,只用自然执行反馈。
上下文压缩 研究从简单摘要升级到**学习型压缩。**2025年的MemAgent通过强化学习训练压缩策略,学会在长文档每一段保留什么、丢弃什么,本质是学会高效记笔记。这套方法从8000 token训练,扩展到处理350万token文档,性能下降不到5%——通过智能压缩把有效上下文扩大400倍。
上下文对齐 研究确保上下文匹配任务目标。Provence作为训练型上下文修剪器,学会过滤误导模型的信息。不使用“删除最旧文本”这类启发式规则,而是学会哪些具体上下文对特定查询类型有帮助或伤害。
2025年一项分析1300+篇论文的调研指出现代LLM的关键不对称性: 它们理解复杂上下文的能力极强,但生成同等复杂长文本输出的能力很弱。模型可以处理百万级token输入并高精度提取信息,但让它生成一篇连贯的10000 token文档,质量会明显下降。这种不对称性塑造系统设计:用LLM做理解与决策,用结构化模板与多阶段生成做长文本输出,把推理与格式化分离。
五年演进带来最关键的洞见非常直白:模型可替换,上下文不可替换。
想想是什么让生产级AI系统有价值:
-
模型本身(GPT‑4、Claude、Gemini)从厂商授权,改个API就能换;
-
模型在你控制外持续升级;
-
模型已经彻底商品化:强大、可用、可互换。
但你搭建的上下文系统是独一无二的:
-
它编码你的领域知识——业务相关的特定事实、流程、模式;
-
它捕捉通过数千次交互积累的用户偏好;
-
它反映跨项目、决策、经验的组织记忆;
-
它包含工作流智能——任务如何拆解、何时用什么工具、不同场景什么信息重要。
投资趋势反映了这一现实:
-
2022年:投入提示词工程——找对文字;
-
2023年:投入RAG基础设施——向量库、嵌入模型、检索流水线;
-
2024年:转向上下文架构——记忆系统、压缩策略、组装流水线;
-
2025年:严肃团队投入**上下文生命周期管理:**获取、处理、存储、检索、衰减作为集成系统。
**管理上下文的系统才是护城河,而非驱动它的模型。**两家用完全相同LLM的公司,会因为上下文架构产生天差地别的结果:一家能在数月交互中保持连贯记忆,另一个每周失忆;一家检索文档准确率90%,另一个全是无关噪音;一家高效压缩对话,另一个十几轮就耗尽窗口。
这一原则也延伸到个人用户。AI助手的差异化不在底层模型,而在它们维护的上下文。一个记住你的沟通风格、理解 recurring 任务、从修正中学习的助手会变得不可替代。模型版本远不如积累的记忆重要。
展望未来,几条轨迹清晰可见:
短期(到2026年)
-
标准化:Model Context Protocol 等协议定义上下文集成通用接口;
-
压缩技术:通过智能摘要与学习型修剪实现1000万token有效窗口;
-
多模态上下文:把图片、音频、视频像文本一样自然纳入记忆;
-
联邦记忆:安全跨机构上下文共享,不泄露隐私。
中期(2027年及以后)
-
持续学习:智能体从上下文学习,而非仅使用上下文,基于积累经验更新行为;
-
元学习:智能体学会如何管理上下文,通过试错形成记忆策略,而非手动配置;
-
个性化架构:上下文系统为单个用户定制;
-
上下文市场:领域特定记忆成为可交易资产——购买医疗诊断、法律分析预训练上下文。
长期愿景上下文成为主要接口。智能体由记忆与上下文管理定义,而非模型架构。你可以下载某人的上下文以获得他们的专业知识,让知识转移从抽象变具体。上下文可移植,让你跨平台携带积累记忆,避免锁定。模型退化成基础设施,上下文成为产品。
五年间我们走了很远:
-
从手动把指令塞进2000 token提示词,到搭建管理百万级token的自我管理记忆系统;
-
从失忆无状态模型,到跨周保持一致身份的智能体;
-
从基于文本的提示词工程,到架构化系统工程。
下一个前沿不是更好的模型。模型已经足够强。 下一个前沿是更好的上下文系统——能够以匹配模型能力的复杂度,去获取、处理、存储、检索、遗忘信息的架构。
上下文工程已经从战术性提示词写作,升级为生产级AI系统的核心技术挑战。
模型可替换。上下文才是产品。
回顾:这场变革
五年,五次范式转移。
我们从提示词工程开始——手工作坊式技艺,用精准文字从2000 token记忆的模型中诱导行为。每条指令重复,每次对话从零开始。上下文只是你粘贴进盒子里的文本。
当我们承认模型无法知道一切时,RAG出现。外部知识检索解决了知识陈旧问题,但带来了相关性问题。我们学会给模型信息入口,但还没学会智能管理入口。
当我们意识到上下文不是文本,而是架构时,上下文工程正式成型。关注点分离、智能筛选、动态组装、渐进式披露。上下文变成带显式转换的编译流水线。工程从文字游戏变成系统设计。
智能体记忆翻转了关系。模型开始通过自我编辑工具管理自己的上下文。记忆层级出现:核心、工作、情景、语义、归档。智能体从被动消费者变成主动管理者。上下文从静态输入变成活的状态。
今天,**上下文就是认知架构。**模型是基础设施——强大、商品化、可替换。你搭建的上下文系统定义智能体的能力。记忆管理、上下文生命周期、预算优化、多智能体协同——这些比模型选择更决定上限。
这场变革比技术更深层:
-
2022年,AI工程 = 写提示词;
-
2025年,AI工程 = 系统架构。
核心技能从寻找巧妙提示,转向设计记忆系统;从编写指令,转向搭建上下文流水线;从管理token,转向架构认知状态。
AI 上下文工程五年演进
生产团队在痛苦中学会: 智能体失败更多源于上下文问题,而非模型限制。关键信息被遗忘,无关噪音淹没有效信号,记忆冲突未解决,上下文预算溢出。模型愿意且有能力——上下文系统才是瓶颈。
改变一切的洞见:**模型可替换,上下文不可替换。**改一行API就能把GPT‑4换成Claude、Gemini。但你搭建的上下文系统——编码领域知识、捕捉用户偏好、维持对话连续性、管理工具权限——是独特、有价值、不可替代的。
这就是投资趋势转变的原因: 从提示词工程 → RAG基础设施 → 上下文架构 → 记忆生命周期管理。
每个阶段都代表一层更深的理解:模型是处理器,上下文是程序。
-------------------------------------------------------------