人人都能懂的大模型 · 第14期：上下文窗口：AI 的“短期记忆”1. 为什么聊着聊着，AI 就“失忆”了？小明最近遇

这是一个为零基础读者打造的 30 期精品科普系列。在这里，没有晦涩的公式，只有生动的故事。我们邀请了火柴人小明和方头机器人阿模，带你一起拆解大模型背后的奥秘。

1. 为什么聊着聊着，AI 就“失忆”了？

小明最近遇到了个怪事。他正拉着阿模写一部长篇武侠小说，聊到第 50 轮对话时，小明随口问了一句：“主角李大侠在第一章捡到的那把破剑叫什么来着？”结果阿模憨憨地回答：“抱歉，小明，我不记得你提到过什么破剑。”

小明气得直挠头：“阿模，你是不是变笨了？刚才还夸你聪明呢！”

其实，这真不怪阿模。阿模作为一个大模型，虽然知识渊博，但他在每一场对话中的“短期记忆”是有上限的。这个上限，在技术上被称为上下文窗口（Context Window）。你可以把它想象成阿模在和你聊天时，手边能摊开的草稿纸张数。

当你们聊得天昏地暗，纸带越拉越长，前面的内容就会因为“没地方写了”而被阿模默默卷起来扔进碎纸机。当他要回答你的问题时，他只能看到还没被扔掉的那部分。

2. 什么是上下文窗口：AI 的“考场笔记”

要理解这个概念，我们可以把 AI 想象成一个正在参加“开卷考试”的学生。

考场规则是这样的：题目非常难，你必须参考书本资料才能回答。但是，考官（技术限制）只允许你在桌面上摊开固定页数的笔记。假设这个限制是 10 页，当你写到第 11 页笔记时，为了腾出地方，你必须把第 1 页的笔记塞进书包锁死，再也回看不了。

这个“桌面大小”，就是上下文窗口。在 AI 世界里，计算单位不是“页”，而是 Token（我们在第 5 期讲过，可以简单理解为字或词的片段）。

这里有一个非常关键的技术细节：虽然逻辑上输入（你对它说的话）和输出（它给你的回答）都共享这个总窗口，但实际上几乎所有模型都有独立的**“最大输出 Token 限制”（Max Output Tokens）**。

例如 2026 年的主流模型 Gemini 2.5 Pro，它的总上下文窗口可能高达 1M（100 万），但它的单次输出上限通常仅为 64K。这意味着阿模虽然能一次性读完 10 本书，但他一次性写出来的作品最多只有几万字。如果你指望 1M 窗口能让你一键生成百万字长篇，那可就误会它了。

3. 为什么 AI 不能拥有无限的纸？

你可能会问：“既然窗口大这么好用，为什么不直接给阿模一个无限大的桌面？”

这涉及到大模型底层的一个“硬伤”：KV Cache（键值缓存）。你可以把它理解为阿模在阅读每一行字时，脑子里产生的“思维负担”或“脑力占用”。

每增加一个 Token，AI 都需要将它与前面所有的 Token 进行关联计算。随着窗口的增加，这种计算量和内存占用并不是线性增长的，而是呈平方级爆炸。窗口增加 10 倍，计算压力可能增加 100 倍。

这也就是为什么长上下文任务往往**“贵且慢”**。当阿模在处理百万级窗口时，他需要消耗海量的算力来维持这些“缓存记忆”，反应速度自然会变慢。这就好比让你同时记住 3 个人名很简单，但让你同时记住 3000 个人名并分析他们的关系，你的大脑也会“宕机”。

4. 窗户进化史：从“猫眼”到“落地窗”

别看现在的 AI 记忆力还不错，放在几年前，它们的“记性”可能连金鱼都不如。

早在 2023 年，GPT-4 发布时（在今天看来已是早期的经典款），它的上下文窗口主流规格是 32K 到 128K。而更早的 GPT-3 刚出来时只有 4K Token，大概相当于一篇几千字的短文。那时候想让它读本小说？门都没有，它读到第五章就把第一章主角叫啥给忘了。

到了 2026 年的今天，Claude 4.6 和 Gemini 3 Pro 已经能稳定支持 1M（100 万）Token 的原生窗口了。甚至有些前沿模型（如 Llama 4 系列）已经在探索 10M（1000 万） 的级别。

这就好比阿模以前只能透过一个“猫眼”看世界，现在他直接换了一面巨大的“落地窗”。他可以一次性读完几十万字的技术文档，甚至能把整份代码库都塞进脑子里。

5. 128K 到底有多大？换算你的“记忆力”

大家可能对 128K 或 1M 这种数字没啥概念。根据主流模型的 Tokenizer（分词器）估算，1 个汉字通常占用 1.5 到 2 个 Token。我们来做个更准确的换算：

128K Token：大约等于 6 到 8 万个中文字。这基本上是一本中等厚度的长篇小说（如《小王子》或较薄的专业手册）。
1M Token：大约等于 60 到 70 万个中文字。这相当于 10 本普通小说，或者整整 1 小时的视频信息量。

所以，当你使用百万窗口模型时，你可以直接把一整年的公司财务报表丢给它。这在几年前是科幻，在 2026 年则是日常。

6. 陷阱：为什么它记得头尾，却忘了中间？

虽然现在的窗户很大，但这里面藏着一个“心理学现象”，即 Lost in the Middle（迷失在中间）。

想象你读了一本 500 页的侦探小说，第二天别人问你：开头是谁死了？你记得。结尾凶手是谁？你也记得。但如果问你第 250 页那个路人甲穿什么颜色的袜子，你大概率会一脸懵。

大海捞针：AI 的眼力测试

为了测试 AI 到底有没有“偷懒”，行业内通用的标准叫作 Needle In A Haystack（大海捞针测试）。测试方法很简单：在一篇长达 100 万字的文档中间，随机插入一句完全无关的话（比如“小明今天穿了红袜子”），然后问 AI：“小明穿了什么颜色的袜子？” 如果 AI 能精准回答，说明它的长上下文质量很高；如果它开始胡编乱造，就说明它虽然“看”了，但没“记住”。

7. 实战技巧：如何让 AI 记得更准？

既然知道了 AI 记忆的局限性，我们就能“对症下药”了：

摘要压缩（更具体的提示词技巧） 如果对话太长，不要直接继续。你可以说：“请梳理以上我们关于‘武侠小说大纲’的所有讨论，保留主角名字、核心冲突和已定结局，总结成一份 500 字以内的摘要。”然后带着摘要开启新对话。
分段处理（流水线法） 处理 20 万字的长文时，先让 AI 读取前 5 万字并总结，再把这个总结和第 2 个 5 万字一起喂给它。这种“接力赛”比一次性喂入更稳健。
黄金位置法 把最核心的指令（例如“请严格按照财务报表格式输出”）放在文档的最开头或者对话的最末尾。避开那段容易迷失的“深水区”。
明确区分原生窗口与 RAG（外部记忆插件） 目前有一种成熟方案叫 RAG（检索增强生成）。它不像原生大窗口那样把所有东西都塞进脑子，而是把资料存进“外部硬盘”。AI 遇到问题时，先去硬盘里搜索相关片段，再把片段抓回窗口。这就像给阿模配了一个**“搜索引擎”**，是目前实现 AI 长期记忆最经济高效的方法。

8. 未来：无限记忆的可能？

上下文窗口的竞赛还在继续。现在的趋势是，原生大窗口正变得越来越廉价，而 RAG 技术则让 AI 能够调取你一年前说过的悄悄话。

不过，目前的 AI 虽然记性变好了，但它还是有个毛病：虽然它记住了你给的资料，但它有时候会“脑补”一些资料里没有的内容。

下期预告：为什么 AI 会一本正经地胡说八道？明明记忆力变好了，为什么还会产生“幻觉”？下一期，我们拆解大模型的最大硬伤——幻觉（Hallucination）。

下期预告： 第15期：幻觉：为什么 AI 总是“一本正经地胡说八道”？