人人都能懂的大模型 · 第14期:上下文窗口:AI 的“短期记忆”

0 阅读8分钟

这是一个为零基础读者打造的 30 期精品科普系列。在这里,没有晦涩的公式,只有生动的故事。我们邀请了火柴人小明和方头机器人阿模,带你一起拆解大模型背后的奥秘。


1. 为什么聊着聊着,AI 就“失忆”了?

小明最近遇到了个怪事。他正拉着阿模写一部长篇武侠小说,聊到第 50 轮对话时,小明随口问了一句:“主角李大侠在第一章捡到的那把破剑叫什么来着?”结果阿模憨憨地回答:“抱歉,小明,我不记得你提到过什么破剑。”

小明气得直挠头:“阿模,你是不是变笨了?刚才还夸你聪明呢!”

其实,这真不怪阿模。阿模作为一个大模型,虽然知识渊博,但他在每一场对话中的“短期记忆”是有上限的。这个上限,在技术上被称为上下文窗口(Context Window)。你可以把它想象成阿模在和你聊天时,手边能摊开的草稿纸张数

配图

当你们聊得天昏地暗,纸带越拉越长,前面的内容就会因为“没地方写了”而被阿模默默卷起来扔进碎纸机。当他要回答你的问题时,他只能看到还没被扔掉的那部分。

2. 什么是上下文窗口:AI 的“考场笔记”

要理解这个概念,我们可以把 AI 想象成一个正在参加“开卷考试”的学生。

考场规则是这样的:题目非常难,你必须参考书本资料才能回答。但是,考官(技术限制)只允许你在桌面上摊开固定页数的笔记。假设这个限制是 10 页,当你写到第 11 页笔记时,为了腾出地方,你必须把第 1 页的笔记塞进书包锁死,再也回看不了。

这个“桌面大小”,就是上下文窗口。在 AI 世界里,计算单位不是“页”,而是 Token(我们在第 5 期讲过,可以简单理解为字或词的片段)。

配图

这里有一个非常关键的技术细节:虽然逻辑上输入(你对它说的话)和输出(它给你的回答)都共享这个总窗口,但实际上几乎所有模型都有独立的**“最大输出 Token 限制”(Max Output Tokens)**。

例如 2026 年的主流模型 Gemini 2.5 Pro,它的总上下文窗口可能高达 1M(100 万),但它的单次输出上限通常仅为 64K。这意味着阿模虽然能一次性读完 10 本书,但他一次性写出来的作品最多只有几万字。如果你指望 1M 窗口能让你一键生成百万字长篇,那可就误会它了。

3. 为什么 AI 不能拥有无限的纸?

你可能会问:“既然窗口大这么好用,为什么不直接给阿模一个无限大的桌面?”

这涉及到大模型底层的一个“硬伤”:KV Cache(键值缓存)。你可以把它理解为阿模在阅读每一行字时,脑子里产生的“思维负担”或“脑力占用”。

每增加一个 Token,AI 都需要将它与前面所有的 Token 进行关联计算。随着窗口的增加,这种计算量和内存占用并不是线性增长的,而是呈平方级爆炸。窗口增加 10 倍,计算压力可能增加 100 倍。

这也就是为什么长上下文任务往往**“贵且慢”**。当阿模在处理百万级窗口时,他需要消耗海量的算力来维持这些“缓存记忆”,反应速度自然会变慢。这就好比让你同时记住 3 个人名很简单,但让你同时记住 3000 个人名并分析他们的关系,你的大脑也会“宕机”。

4. 窗户进化史:从“猫眼”到“落地窗”

别看现在的 AI 记忆力还不错,放在几年前,它们的“记性”可能连金鱼都不如。

早在 2023 年,GPT-4 发布时(在今天看来已是早期的经典款),它的上下文窗口主流规格是 32K128K。而更早的 GPT-3 刚出来时只有 4K Token,大概相当于一篇几千字的短文。那时候想让它读本小说?门都没有,它读到第五章就把第一章主角叫啥给忘了。

到了 2026 年的今天,Claude 4.6 和 Gemini 3 Pro 已经能稳定支持 1M(100 万)Token 的原生窗口了。甚至有些前沿模型(如 Llama 4 系列)已经在探索 10M(1000 万) 的级别。

配图

这就好比阿模以前只能透过一个“猫眼”看世界,现在他直接换了一面巨大的“落地窗”。他可以一次性读完几十万字的技术文档,甚至能把整份代码库都塞进脑子里。

5. 128K 到底有多大?换算你的“记忆力”

大家可能对 128K 或 1M 这种数字没啥概念。根据主流模型的 Tokenizer(分词器)估算,1 个汉字通常占用 1.5 到 2 个 Token。我们来做个更准确的换算:

  • 128K Token:大约等于 6 到 8 万个中文字。这基本上是一本中等厚度的长篇小说(如《小王子》或较薄的专业手册)。
  • 1M Token:大约等于 60 到 70 万个中文字。这相当于 10 本普通小说,或者整整 1 小时的视频信息量。

配图

所以,当你使用百万窗口模型时,你可以直接把一整年的公司财务报表丢给它。这在几年前是科幻,在 2026 年则是日常。

配图

6. 陷阱:为什么它记得头尾,却忘了中间?

虽然现在的窗户很大,但这里面藏着一个“心理学现象”,即 Lost in the Middle(迷失在中间)

想象你读了一本 500 页的侦探小说,第二天别人问你:开头是谁死了?你记得。结尾凶手是谁?你也记得。但如果问你第 250 页那个路人甲穿什么颜色的袜子,你大概率会一脸懵。

配图

大海捞针:AI 的眼力测试

为了测试 AI 到底有没有“偷懒”,行业内通用的标准叫作 Needle In A Haystack(大海捞针测试)。 测试方法很简单:在一篇长达 100 万字的文档中间,随机插入一句完全无关的话(比如“小明今天穿了红袜子”),然后问 AI:“小明穿了什么颜色的袜子?” 如果 AI 能精准回答,说明它的长上下文质量很高;如果它开始胡编乱造,就说明它虽然“看”了,但没“记住”。

7. 实战技巧:如何让 AI 记得更准?

既然知道了 AI 记忆的局限性,我们就能“对症下药”了:

  1. 摘要压缩(更具体的提示词技巧) 如果对话太长,不要直接继续。你可以说:“请梳理以上我们关于‘武侠小说大纲’的所有讨论,保留主角名字、核心冲突和已定结局,总结成一份 500 字以内的摘要。”然后带着摘要开启新对话。

  2. 分段处理(流水线法) 处理 20 万字的长文时,先让 AI 读取前 5 万字并总结,再把这个总结和第 2 个 5 万字一起喂给它。这种“接力赛”比一次性喂入更稳健。

  3. 黄金位置法 把最核心的指令(例如“请严格按照财务报表格式输出”)放在文档的最开头或者对话的最末尾。避开那段容易迷失的“深水区”。

  4. 明确区分原生窗口与 RAG(外部记忆插件) 目前有一种成熟方案叫 RAG(检索增强生成)。它不像原生大窗口那样把所有东西都塞进脑子,而是把资料存进“外部硬盘”。AI 遇到问题时,先去硬盘里搜索相关片段,再把片段抓回窗口。这就像给阿模配了一个**“搜索引擎”**,是目前实现 AI 长期记忆最经济高效的方法。

配图

配图

8. 未来:无限记忆的可能?

上下文窗口的竞赛还在继续。现在的趋势是,原生大窗口正变得越来越廉价,而 RAG 技术则让 AI 能够调取你一年前说过的悄悄话。

配图

不过,目前的 AI 虽然记性变好了,但它还是有个毛病:虽然它记住了你给的资料,但它有时候会“脑补”一些资料里没有的内容。

配图

下期预告:为什么 AI 会一本正经地胡说八道?明明记忆力变好了,为什么还会产生“幻觉”?下一期,我们拆解大模型的最大硬伤——幻觉(Hallucination)

配图


下期预告: 第15期:幻觉:为什么 AI 总是“一本正经地胡说八道”?